Preparazione dei dati mediante sessioni interattive AWS Glue - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Preparazione dei dati mediante sessioni interattive AWS Glue

Le sessioni interattive di AWS Glue sono un servizio serverless che puoi utilizzare per raccogliere, trasformare, pulire e preparare i dati per l’archiviazione nei data lake e nelle pipeline dei dati. Le sessioni interattive di AWS Glue forniscono un ambiente di runtime Apache Spark serverless e on demand, che puoi inizializzare in pochi secondi su un’unità di elaborazione dati (DPU) dedicata, senza dover allocare e gestire complesse infrastrutture dei cluster di calcolo. Dopo l'inizializzazione, puoi sfogliare il catalogo AWS Glue dati, eseguire query di grandi dimensioni, accedere ai dati governati da AWS Lake Formation e analizzare e preparare in modo interattivo i dati utilizzando Spark, direttamente nei tuoi notebook Studio o Studio Classic. Puoi quindi utilizzare i dati preparati per addestrare, ottimizzare e distribuire i modelli utilizzando gli strumenti di machine learning appositamente progettati all'interno di Studio o Studio Classic. SageMaker Se desideri un servizio Spark serverless con un controllo moderato della configurabilità e della flessibilità, dovresti prendere in considerazione le sessioni AWS Glue interattive per i tuoi carichi di lavoro di preparazione dei dati.

È possibile avviare una sessione AWS Glue interattiva avviando un JupyterLab notebook in Studio o Studio Classic. Quando avvii il notebook, scegli il kernel integrato Glue PySpark and Ray o Glue Spark. Questo avvia automaticamente una sessione Spark interattiva e senza server. Non è necessario fornire o gestire alcun cluster o infrastruttura di elaborazione. Dopo l’inizializzazione, puoi esplorare e interagire con i dati direttamente dai notebook Studio o Studio Classic.

Prima di iniziare la sessione AWS Glue interattiva in Studio o Studio Classic, è necessario impostare i ruoli e le politiche appropriati. Inoltre, potrebbe dover fornire l’accesso a risorse aggiuntive, ad esempio a un bucket di archiviazione Amazon S3. Per ulteriori informazioni sulle policy IAM richieste, consulta Autorizzazioni per sessioni AWS Glue interattive in Studio o Studio Classic.

Studio e Studio Classic forniscono una configurazione predefinita per la sessione AWS Glue interattiva, tuttavia, puoi utilizzare AWS Glue il catalogo completo dei comandi magici di Jupyter per personalizzare ulteriormente il tuo ambiente. Per informazioni sui Jupyter magics predefiniti e aggiuntivi che puoi usare nella tua sessione interattiva, consulta. AWS Glue Configura la tua sessione AWS Glue interattiva in Studio o Studio Classic

  • Gli utenti di Studio Classic che avviano una sessione AWS Glue interattiva, possono scegliere tra le seguenti immagini e kernel:

    • Immagini: SparkAnalytics 1.0, SparkAnalytics 2.0

    • Kernel: Glue Python [PySpark and Ray] e Glue Spark

  • Per gli utenti di Studio, utilizzate l'immagine di SageMaker distribuzione predefinita e selezionate uno Glue Python [PySpark and Ray] o un Glue Spark kernel.