Preparazione dei dati con SQL in Studio

Amazon SageMaker Studio fornisce un'estensione SQL integrata. Questa estensione consente ai data scientist di eseguire attività come campionamento, analisi esplorativa e progettazione delle funzionalità direttamente all'interno dei propri JupyterLab notebook. Sfrutta le AWS Glue connessioni per mantenere un catalogo centralizzato delle fonti di dati. Il catalogo archivia i metadati relativi a varie origini dati. Attraverso questo ambiente SQL, i Data Scientist possono sfogliare i cataloghi di dati, esplorare i propri dati, creare query SQL complesse ed elaborare ulteriormente i risultati in Python.

Questa sezione illustra come configurare l’estensione SQL in Studio. Descrive le funzionalità abilitate da questa integrazione SQL e fornisce istruzioni per l'esecuzione di query SQL nei notebook. JupyterLab

Per abilitare l'analisi dei dati SQL, gli amministratori devono prima configurare AWS Glue le connessioni alle fonti di dati pertinenti. Queste connessioni consentono ai data scientist di accedere senza problemi ai set di dati autorizzati dall'interno. JupyterLab

Oltre alle AWS Glue connessioni configurate dall'amministratore, l'estensione SQL consente ai singoli data scientist di creare le proprie connessioni alle fonti di dati. Queste connessioni create dall’utente possono essere gestite in modo indipendente e limitate al profilo dell’utente attraverso policy di controllo degli accessi basate su tag. Questo modello di connessione a due livelli, con connessioni configurate dall’amministratore e create dall’utente, offre ai Data Scientist un accesso più ampio ai dati di cui hanno bisogno per le loro attività di analisi e modellazione. Gli utenti possono configurare le connessioni necessarie alle proprie fonti di dati all'interno dell'interfaccia utente dell' JupyterLab ambiente (UI), senza fare affidamento esclusivamente sulle connessioni centralizzate stabilite dall'amministratore.

Importante

La funzionalità di creazione di connessioni definite dall’utente è disponibile come set di librerie standalone in PyPI. Per utilizzare questa funzionalità, è necessario installare le seguenti librerie nel proprio JupyterLab ambiente:

È possibile installare queste librerie eseguendo i seguenti comandi nel JupyterLab terminale:


pip install amazon-sagemaker-sql-editor>=0.1.13
pip install amazon-sagemaker-sql-execution>=0.1.6
pip install amazon-sagemaker-sql-magic>=0.1.3

Dopo aver installato le librerie, sarà necessario riavviare il JupyterLab server per rendere effettive le modifiche.


restart-jupyter-server

Con la configurazione dell'accesso, JupyterLab gli utenti possono:

Visualizzare e sfogliare le origini dati preconfigurate.
Cercare, filtrare e ispezionare gli elementi informativi del database come tabelle, schemi e colonne.
Auto-generate i parametri di connessione a una fonte di dati.
Creare query SQL complesse utilizzando le funzionalità di evidenziazione della sintassi, completamento automatico e formattazione SQL dell’editor SQL dell’estensione.
Esegui istruzioni SQL dalle celle del JupyterLab notebook.
Recupera i risultati delle query SQL pandas DataFrames per ulteriori attività di elaborazione, visualizzazione e altre attività di apprendimento automatico.

È possibile accedere all'estensione scegliendo l'icona dell'estensione SQL ( ) nel riquadro di navigazione a sinistra dell' JupyterLab applicazione in Studio. Passando il mouse sull’icona viene visualizzato il tooltip Rilevamento dei dati.

Importante

L' JupyterLab immagine in SageMaker Studio contiene l'estensione SQL per impostazione predefinita, a partire da SageMaker AI Distribution 1.6. L'estensione funziona solo con Python e SparkMagic kernel.
L'interfaccia utente dell'estensione per esplorare connessioni e dati è disponibile solo JupyterLab all'interno di Studio. È compatibile con Amazon Redshift, Amazon Athena e Snowflake.

Gli amministratori che desiderano creare connessioni generiche alle origini dati per l’estensione SQL possono:
1. Abilitare la comunicazione di rete tra il dominio Studio e le origini dati a cui connettersi. Per ulteriori informazioni sui requisiti di rete, consulta Configurazione dell’accesso alla rete tra Studio e le origini dati (per amministratori).
2. Controllare le proprietà di connessione e le istruzioni per creare un segreto per l’origine dati in Creazione di segreti per le credenziali di accesso al database in Secrets Manager.
3. Crea le AWS Glue connessioni alle tue fonti di dati inCrea AWS Glue connessioni (per amministratori).
4. Concedi al ruolo di esecuzione del tuo SageMaker dominio o dei tuoi profili utente le autorizzazioni richieste inConfigurazione delle autorizzazioni IAM per accedere alle origini dati (per amministratori).
I Data Scientist che desiderano creare connessioni personalizzate alle origini dati per l’estensione SQL possono:
1. Chiedere all’amministratore di:
  - Abilitare la comunicazione di rete tra il dominio Studio e le origini dati a cui connettersi. Per ulteriori informazioni sui requisiti di rete, consulta Configurazione dell’accesso alla rete tra Studio e le origini dati (per amministratori).
  - Concedi al ruolo di esecuzione del tuo SageMaker dominio o dei tuoi profili utente le autorizzazioni richieste in. Configurazione delle autorizzazioni IAM per accedere alle origini dati (per amministratori)
    
    Nota
    Gli amministratori possono limitare l'accesso degli utenti alle connessioni create all'interno dell' JupyterLab applicazione configurando il controllo degli accessi basato su tag nel ruolo di esecuzione.
2. Controllare le proprietà di connessione e le istruzioni per creare un segreto per l’origine dati in Creazione di segreti per le credenziali di accesso al database in Secrets Manager.
3. Crea la tua connessione nell' JupyterLab interfaccia utente utilizzando le istruzioni in. Crea definito dall'utente AWS Glue connections
I Data Scientist che desiderano sfogliare ed eseguire query sulle origini dati tramite l’estensione SQL devono verificare di aver configurato, o che l’amministratore abbia configurato, le connessioni alle origini dati. Quindi, possono:
1. Crea uno spazio privato per avviare l' JupyterLab applicazione in Studio utilizzando l'immagine di SageMaker distribuzione versione 1.6 o successiva.
2. Se sei un utente della versione 1.6 dell'immagine di SageMaker distribuzione, carica l'estensione SQL in un JupyterLab notebook eseguendola %load_ext amazon_sagemaker_sql_magic in una cella del notebook.
  
  Per gli utenti delle versioni 1.7 e successive delle immagini di SageMaker distribuzione, non è necessaria alcuna azione, l'estensione SQL viene caricata automaticamente.
3. Acquisire familiarità con le funzionalità dell’estensione SQL in Funzionalità e utilizzo dell’estensione SQL.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Prepara i dati

Avvio rapido: esecuzione di query sui dati in Amazon S3

Preparazione dei dati con SQL in Studio

Importante

Importante

Nota

Argomenti