Preparazione dei dati con SQL in Studio - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Preparazione dei dati con SQL in Studio

Amazon SageMaker Studio fornisce un'estensione SQL integrata. Questa estensione consente ai data scientist di eseguire attività come campionamento, analisi esplorativa e progettazione delle funzionalità direttamente all'interno dei propri JupyterLab notebook. Sfrutta le AWS Glue connessioni per mantenere un catalogo centralizzato delle fonti di dati. Il catalogo archivia i metadati relativi a varie origini dati. Attraverso questo ambiente SQL, i Data Scientist possono sfogliare i cataloghi di dati, esplorare i propri dati, creare query SQL complesse ed elaborare ulteriormente i risultati in Python.

Questa sezione illustra come configurare l’estensione SQL in Studio. Descrive le funzionalità abilitate da questa integrazione SQL e fornisce istruzioni per l'esecuzione di query SQL nei notebook. JupyterLab

Per abilitare l'analisi dei dati SQL, gli amministratori devono prima configurare AWS Glue le connessioni alle fonti di dati pertinenti. Queste connessioni consentono ai data scientist di accedere senza problemi ai set di dati autorizzati dall'interno. JupyterLab

Oltre alle AWS Glue connessioni configurate dall'amministratore, l'estensione SQL consente ai singoli data scientist di creare le proprie connessioni alle fonti di dati. Queste connessioni create dall’utente possono essere gestite in modo indipendente e limitate al profilo dell’utente attraverso policy di controllo degli accessi basate su tag. Questo modello di connessione a due livelli, con connessioni configurate dall’amministratore e create dall’utente, offre ai Data Scientist un accesso più ampio ai dati di cui hanno bisogno per le loro attività di analisi e modellazione. Gli utenti possono configurare le connessioni necessarie alle proprie fonti di dati all'interno dell'interfaccia utente dell' JupyterLab ambiente (UI), senza fare affidamento esclusivamente sulle connessioni centralizzate stabilite dall'amministratore.

Importante

La funzionalità di creazione di connessioni definite dall’utente è disponibile come set di librerie standalone in PyPI. Per utilizzare questa funzionalità, è necessario installare le seguenti librerie nel proprio JupyterLab ambiente:

È possibile installare queste librerie eseguendo i seguenti comandi nel JupyterLab terminale:

pip install amazon-sagemaker-sql-editor>=0.1.13 pip install amazon-sagemaker-sql-execution>=0.1.6 pip install amazon-sagemaker-sql-magic>=0.1.3

Dopo aver installato le librerie, sarà necessario riavviare il JupyterLab server per rendere effettive le modifiche.

restart-jupyter-server

Con la configurazione dell'accesso, JupyterLab gli utenti possono:

  • Visualizzare e sfogliare le origini dati preconfigurate.

  • Cercare, filtrare e ispezionare gli elementi informativi del database come tabelle, schemi e colonne.

  • Generare automaticamente i parametri di connessione a un’origine dati.

  • Creare query SQL complesse utilizzando le funzionalità di evidenziazione della sintassi, completamento automatico e formattazione SQL dell’editor SQL dell’estensione.

  • Eseguire istruzioni SQL dalle celle del JupyterLab notebook.

  • Recupera i risultati delle query SQL pandas DataFrames per ulteriori attività di elaborazione, visualizzazione e altre attività di apprendimento automatico.

È possibile accedere all'estensione scegliendo l'icona dell'estensione SQL ( Icon of the SQL extension feature in JupyterLab. ) nel riquadro di navigazione a sinistra dell' JupyterLab applicazione in Studio. Passando il mouse sull’icona viene visualizzato il tooltip Rilevamento dei dati.

Importante
  • L' JupyterLab immagine in SageMaker Studio contiene l'estensione SQL per impostazione predefinita, a partire da SageMaker AI Distribution 1.6. L'estensione funziona solo con Python e SparkMagic kernel.

  • L'interfaccia utente dell'estensione per esplorare connessioni e dati è disponibile solo JupyterLab all'interno di Studio. È compatibile con Amazon Redshift, Amazon Athena e Snowflake.