Guida per l'utente - Amazon SageMaker AI

Guida per l'utente

Questa sezione illustra come Data Scientist e ingegneri dei dati possono avviare, rilevare, connettersi o terminare un cluster Amazon EMR da Studio o Studio Classic.

Prima che gli utenti possano elencare o avviare i cluster, gli amministratori devono configurare le impostazioni necessarie nell’ambiente Studio. Per informazioni su come gli amministratori possono configurare un ambiente Studio per consentire il provisioning automatico e la visualizzazione dei cluster Amazon EMR, consulta Guida per l’amministratore.

Immagini e kernel supportati per la connessione a un cluster Amazon EMR da Studio o Studio Classic

Le immagini e i kernel seguenti vengono forniti con sagemaker-studio-analytics-extension, l’estensione di JupyterLab che consente la connessione a un cluster Spark (Amazon EMR) remoto tramite la libreria SparkMagic utilizzando Apache Livy.

  • Per gli utenti di Studio: SageMaker Distribution è un ambiente Docker per la data science utilizzato come immagine predefinita delle istanze del notebook JupyterLab. In tutte le versioni di SageMaker AI Distribution è preinstallato sagemaker-studio-analytics-extension.

  • Per gli utenti di Studio Classic: nelle immagini seguenti è preinstallato sagemaker-studio-analytics-extension.

    • DataScience — Kernel Python 3

    • DataScience 2.0 — Kernel Python 3

    • DataScience 3.0 — Kernel Python 3

    • SparkAnalytics 1.0 — Kernel SparkMagic e PySpark

    • SparkAnalytics 2.0 — Kernel SparkMagic e PySpark

    • SparkMagic – kernel SparkMagic e PySpark

    • PyTorch 1.8 – kernel Python 3

    • TensorFlow 2.6 – kernel Python 3

    • TensorFlow 2.11 – kernel Python 3

Per connetterti ai cluster Amazon EMR utilizzando un'altra immagine integrata o la tua immagine, segui le istruzioni riportate in Utilizza la tua immagine.

Utilizza la tua immagine

Per utilizzare la tua immagine in Studio o Studio Classic e consentire ai notebook di connettersi ai cluster Amazon EMR, installa l’estensione sagemaker-studio-analytics-extension nel kernel. Supporta il collegamento dei notebook SageMaker Studio o Studio Classic ai cluster Spark (Amazon EMR) tramite la libreria SparkMagic.

pip install sparkmagic pip install sagemaker-studio-sparkmagic-lib pip install sagemaker-studio-analytics-extension

Inoltre, per connetterti ad Amazon EMR con l'autenticazione di Kerberos, è necessario installare il client kinit. Il comando per installare il client kinit può variare a seconda del sistema operativo. Per utilizzare un'immagine di Ubuntu (basata su Debian), usa il comando apt-get install -y -qq krb5-user.

Per ulteriori informazioni su come utilizzare la tua immagine personalizzata in SageMaker Studio o Studio Classic, consulta Utilizzo di immagini SageMaker proprie.