Preparazione dei dati con Amazon EMR - Amazon SageMaker AI

Preparazione dei dati con Amazon EMR

Importante

Amazon SageMaker Studio e Amazon SageMaker Studio Classic sono due degli ambienti di machine learning che puoi utilizzare per interagire con SageMaker AI.

Se il tuo dominio è stato creato dopo il 30 novembre 2023, Studio è la tua esperienza predefinita.

Se il tuo dominio è stato creato prima del 30 novembre 2023, Amazon SageMaker Studio Classic è l’esperienza predefinita. Per utilizzare Studio se Amazon SageMaker Studio Classic è l’esperienza predefinita, consulta Migrazione da Amazon SageMaker Studio Classic.

Quando esegui la migrazione da Amazon SageMaker Studio Classic ad Amazon SageMaker Studio, la disponibilità delle funzionalità non viene minimamente alterata. Studio Classic esiste anche come applicazione all’interno di Amazon SageMaker Studio per aiutarti a eseguire i flussi di lavoro di machine learning legacy.

Amazon SageMaker Studio e Studio Classic sono forniti con l’integrazione predefinita con Amazon EMR. All’interno dei notebook JupyterLab e Studio Classic, i Data Scientist e gli ingegneri dei dati possono rilevare e connettersi ai cluster Amazon EMR esistenti, quindi esplorare, visualizzare e preparare in modo interattivo dati per il machine learning su larga scala utilizzando Apache Spark, Apache Hive o Presto. Con un solo clic, possono accedere all’interfaccia utente di Spark per monitorare lo stato e le metriche dei processi Spark senza lasciare il notebook.

Gli amministratori possono creare modelli CloudFormation che definiscono i cluster Amazon EMR. Possono quindi rendere disponibili questi modelli di cluster in AWS Service Catalog, dove possono essere avviati dagli utenti di Studio e Studio Classic. I Data Scientist possono quindi scegliere un modello predefinito per allocare autonomamente un cluster Amazon EMR direttamente dal proprio ambiente Studio. Gli amministratori possono definire ulteriormente i parametri dei modelli per consentire agli utenti di definire vari aspetti del cluster entro valori predefiniti. Ad esempio, gli utenti potrebbero voler specificare il numero di nodi core o selezionare il tipo di istanza di un nodo da un menu a discesa.

Con CloudFormation, gli amministratori possono controllare completamente la configurazione di organizzazione, sicurezza e rete dei cluster Amazon EMR. I Data Scientist e gli ingegneri dei dati possono quindi personalizzare tali modelli per i loro carichi di lavoro al fine di creare cluster Amazon EMR on demand direttamente da Studio e Studio Classic, senza dover ricorrere a configurazioni complesse. Gli utenti possono anche terminare i cluster Amazon EMR dopo l’utilizzo.