Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Avvio di job di addestramento distribuito con SMDDP mediante SageMaker Python SDK
Per eseguire un job di addestramento distribuito con lo script adattato da Adattamento dello script di addestramento per l’utilizzo delle operazioni collettive SMDDP, utilizza il framework SageMaker Python SDK o strumenti di stima generici specificando lo script di addestramento preparato come script del punto di ingresso e la configurazione di addestramento distribuito.
Questa pagina illustra come utilizzare SageMaker AI Python SDK
-
Se desideri adottare rapidamente il tuo job di addestramento distribuito in SageMaker AI, configura una classe dello strumento di stima del framework PyTorch
o TensorFlow di SageMaker AI. Lo strumento di valutazione del framework preleva lo script di addestramento e abbina automaticamente l'URI dell'immagine corretta dei Deep Learning Container (DLC) PyTorch o TensorFlow predefiniti , dato il valore specificato nel parametro framework_version. -
Se desideri estendere uno dei container predefiniti o creare un container personalizzato per creare il tuo ambiente ML con SageMaker AI, utilizza la classe
Estimatorgenerica di SageMaker AI e specifica l’URI dell’immagine del container Docker personalizzato ospitato in Amazon Elastic Container Registry (Amazon ECR).
I tuoi set di dati di addestramento devono essere archiviati in Amazon S3 o Amazon FSx for Lustre nel Regione AWS in cui stai lanciando il tuo processo di addestramento. Se utilizzi notebook Jupyter, dovresti avere un’istanza di notebook SageMaker o un’app SageMaker Studio Classic in esecuzione nella stessa Regione AWS. Per ulteriori informazioni sulla memorizzazione dei dati di addestramento, consulta la documentazione sugli Input di dati SageMaker Python SDK
Suggerimento
È vivamente consigliabile utilizzare Amazon FSx per Lustre anziché Amazon S3 per migliorare le prestazioni di addestramento. Amazon FSx offre un throughput più elevato e una latenza inferiore rispetto ad Amazon S3.
Suggerimento
Per eseguire correttamente l’addestramento distribuito sui tipi di istanze abilitati per EFA, è necessario abilitare il traffico tra le istanze configurando il gruppo di sicurezza del VPC per consentire tutto il traffico in entrata e in uscita dal gruppo stesso. Per informazioni su come configurare le regole del gruppo di sicurezza, consulta Fase 1: preparare un gruppo di sicurezza abilitato per EFA nella Guida per l’utente di Amazon EC2.
Scegli uno degli argomenti seguenti per istruzioni su come eseguire un job di addestramento distribuito del tuo script di addestramento. Dopo aver avviato un processo di addestramento, puoi monitorare l'utilizzo del sistema e modellare le prestazioni utilizzando Amazon SageMaker Debugger o Amazon CloudWatch.
Oltre a seguire le istruzioni riportate nei seguenti argomenti per saperne di più sui dettagli tecnici, ti consigliamo anche di provare Esempi della libreria Amazon SageMaker AI Distributed Data Parallelism per iniziare.