Preparazione dei dati con EMR Serverless - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Preparazione dei dati con EMR Serverless

A partire dalla versione con immagine di SageMaker distribuzione1.10, Amazon SageMaker Studio si integra con EMR Serverless. All'interno dei JupyterLab notebook di SageMaker Studio, i data scientist e gli ingegneri dei dati possono scoprire e connettersi alle applicazioni EMR Serverless, quindi esplorare, visualizzare e preparare in modo interattivo carichi di lavoro Apache Spark o Apache Hive su larga scala. Questa integrazione consente di eseguire la pre-elaborazione interattiva dei dati su larga scala in preparazione all’addestramento e all’implementazione dei modelli di ML.

In particolare, la versione aggiornata della sagemaker-studio-analytics-extensionversione con immagine di distribuzione SageMaker AI 1.10 sfrutta l'integrazione tra Apache Livy ed EMR Serverless, consentendo la connessione a un endpoint Apache Livy tramite notebook. JupyterLab Questa sezione presuppone una conoscenza pregressa delle applicazioni interattive di EMR Serverless.

Importante

Quando si utilizza Studio, è possibile scoprire e connettersi alle applicazioni EMR Serverless solo per JupyterLab applicazioni avviate da spazi privati. Assicurati che le applicazioni EMR Serverless si trovino nella stessa AWS area del tuo ambiente Studio.

Prerequisiti

Prima di iniziare a eseguire carichi di lavoro interattivi con EMR Serverless dai JupyterLab tuoi notebook, assicurati di soddisfare i seguenti prerequisiti:

  1. Il tuo JupyterLab spazio deve utilizzare una versione dell'immagine di distribuzione o superiore. SageMaker 1.10

  2. Crea un’applicazione interattiva EMR Serverless con Amazon EMR versione 6.14.0 o superiore. Puoi creare un’applicazione EMR Serverless dall’interfaccia utente di Studio con la procedura descritta in Creazione di applicazioni EMR Serverless da Studio.

    Nota

    Per semplificare la configurazione, puoi creare l’applicazione EMR Serverless nell’interfaccia utente di Studio senza modificare le impostazioni predefinite per l’opzione Cloud privato virtuale (VPC). Questa operazione consente di creare l’applicazione all’interno del VPC del dominio senza alcuna configurazione di rete. In questo caso, puoi ignorare la fase di configurazione della rete seguente.

  3. Rivedi i requisiti di rete e sicurezza in Configurazione dell’accesso di rete per il cluster Amazon EMR. In particolare, assicurati di completare quanto segue:

    • Stabilisci una connessione peering VPC tra il tuo account Studio e il tuo account EMR Serverless.

    • Aggiungi i percorsi alle tabelle di routing delle sottoreti private in entrambi gli account.

    • Configura il gruppo di sicurezza collegato al tuo dominio Studio per consentire il traffico in uscita e il gruppo di sicurezza del VPC dove intendi eseguire le applicazioni EMR Serverless per consentire il traffico TCP in entrata dal gruppo di sicurezza dell’istanza Studio.

  4. Per accedere alle applicazioni interattive su EMR Serverless ed eseguire carichi di lavoro inviati dai JupyterLab notebook in SageMaker Studio, è necessario assegnare autorizzazioni e ruoli specifici. Consulta la sezione Configura le autorizzazioni per abilitare la pubblicazione e l'avvio di applicazioni Amazon EMR da Studio SageMaker per i dettagli sui ruoli e le autorizzazioni necessari.