Carichi di lavoro di trasformazione dei dati con SageMaker Processing - Amazon SageMaker AI

Carichi di lavoro di trasformazione dei dati con SageMaker Processing

SageMaker Processing fa riferimento alle funzionalità di SageMaker AI per eseguire attività di pre-elaborazione e post-elaborazione dei dati, ingegneria delle caratteristiche e valutazione dei modelli sull’infrastruttura completamente gestita di SageMaker AI. Queste attività vengono eseguite come processi di elaborazione. Di seguito sono riportate informazioni e le risorse più importanti di SageMaker Processing.

Utilizzando l’API SageMaker Processing, i data scientist possono eseguire script e notebook per elaborare, trasformare e analizzare set di dati per prepararli al machine learning. In combinazione con le altre attività critiche di machine learning fornite da SageMaker AI, come l’addestramento e l’hosting, Processing offre i vantaggi di un ambiente di machine learning completamente gestito, incluso tutto il supporto di sicurezza e conformità integrato in SageMaker AI. Hai tutta la flessibilità necessaria per utilizzare i container di elaborazione dati integrati o per utilizzare i tuoi container per la logica di elaborazione personalizzata e quindi inviare processi per l’esecuzione sull’infrastruttura gestita di SageMaker AI.

Nota

Puoi creare un processo di elaborazione a livello di programmazione chiamando l’azione API CreateProcessingJob in qualsiasi linguaggio supportato da SageMaker AI o utilizzando l’AWS CLI. Per informazioni su come questa azione API si traduce in una funzione nel linguaggio che preferisci, consulta la sezione Vedi anche di CreateProcessingJob e seleziona un SDK. Ad esempio, per gli utenti Python, fai riferimento la sezione Amazon SageMaker Processing di SageMaker Python SDK. In alternativa, consulta la sintassi di richiesta completa di create_processing_job in AWS SDK per Python (Boto3).

Il diagramma seguente mostra come Amazon SageMaker AI esegue un processo di elaborazione. Amazon SageMaker AI acquisisce lo script, copia i dati da Amazon Simple Storage Service (Amazon S3), quindi crea un container di elaborazione. L’infrastruttura sottostante per un processo di elaborazione è completamente gestita da Amazon SageMaker AI. Una volta inviato un processo di elaborazione, SageMaker AI avvia le istanze di calcolo, elabora e analizza i dati di input e rilascia le risorse al completamento. L'output del processo di elaborazione viene archiviato nel bucket Amazon S3 che hai specificato.

Nota

I dati di input devono essere archiviati in un bucket S3 Amazon. In alternativa, puoi utilizzare Amazon Athena o Amazon Redshift come origini input.

Esecuzione di un processo di elaborazione.
Suggerimento

Per conoscere le migliori pratiche per il calcolo dei processi di addestramento distribuito ed elaborazione del machine learning (ML) in generale, consulta Calcolo distribuito con le best practice per SageMaker AI.

Usa i notebook di esempio per Elaborazione Amazon SageMaker

Sono disponibili due notebook Jupyter di esempio che mostrano come eseguire la preelaborazione dei dati, la valutazione del modello o entrambe le attività.

Per un notebook di esempio che mostra come eseguire gli script scikit-learn per eseguire la preelaborazione dei dati e l'addestramento e la valutazione del modello con l'SDK di Python SageMaker per Elaborazione, consulta Elaborazione scikit-learn. Questo notebook mostra anche come utilizzare il container personalizzato per eseguire carichi di lavoro di elaborazione con le librerie Python e altre dipendenze specifiche.

Per un notebook di esempio che mostra come utilizzare Elaborazione Amazon SageMaker per eseguire la preelaborazione dei dati distribuiti con Spark, consulta Elaborazione distribuita (Spark). Questo notebook mostra anche come addestrare un modello di regressione utilizzando XGBoost sul set di dati preelaborato.

Per istruzioni su come creare e accedere alle istanze del notebook Jupyter che puoi utilizzare per eseguire questi esempi in SageMaker AI, consulta Istanze del notebook Amazon SageMaker. Dopo aver creato e aperto un’istanza del notebook, scegli la scheda Esempi di SageMaker AI per visualizzare un elenco di tutti gli esempi di SageMaker AI. Per aprire un notebook, seleziona la relativa scheda Utilizza e scegli Crea copia.

Monitoraggio dei processi di elaborazione Amazon SageMaker con i log e i parametri CloudWatch

Elaborazione Amazon SageMaker fornisce log e parametri di Amazon CloudWatch per monitorare i processi di elaborazione. CloudWatch fornisce CPU, GPU, memoria, memoria GPU e parametri del disco e la registrazione di eventi. Per ulteriori informazioni, consultare Metriche di Amazon SageMaker AI in Amazon CloudWatch e Log di CloudWatch per Amazon SageMaker AI.