Esecuzione di un processo di addestramento distribuito SageMaker con parallelismo del modello - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esecuzione di un processo di addestramento distribuito SageMaker con parallelismo del modello

Scopri come eseguire un processo di addestramento con parallelismo del modello del tuo script di addestramento utilizzando l'SDK Python SageMaker con la libreria di parallelismo dei modelli SageMaker.

Esistono tre scenari di utilizzo per l'esecuzione di un processo di addestramento SageMaker.

  1. Puoi utilizzare uno dei container AWS per il deep learning predefiniti per TensorFlow e PyTorch. Questa opzione è consigliata se è la prima volta che utilizzi la libreria di parallelizzazione dei modelli. Per un tutorial su come eseguire un job di addestramento con parallelizzazione del modello SageMaker, consulta i notebook di esempio in Addestramento PyTorch la libreria di parallelizzazione dei modelli di Amazon SageMaker AI.

  2. Puoi estendere i container predefiniti integrati per gestire ulteriori requisiti per un algoritmo o modello che l'immagine Docker SageMaker predefinita non supporta. Per un esempio di come è possibile estendere un container predefinito, consulta Estensione di un container predefinito.

  3. Puoi adattare il tuo container Docker per lavorare con SageMaker AI utilizzando il toolkit di addestramento SageMaker. Per un esempio, consulta Adapting your own training container.

Per le opzioni 2 e 3 nell'elenco precedente, consulta Estendi un container Docker predefinito che contiene la libreria parallela di modelli distribuiti di SageMaker per informazioni su come installare la libreria di parallelismo dei modelli in un container Docker esteso o personalizzato.

In tutti i casi, avvia il processo di addestramento configurando un TensorFlow SageMaker o uno strumento di valutazione PyTorch per attivare la libreria. Per ulteriori informazioni, consulta i seguenti argomenti.