Caratteristiche principali della libreria di parallelismo dei modelli SageMaker - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Caratteristiche principali della libreria di parallelismo dei modelli SageMaker

La libreria di parallelizzazione dei modelli di Amazon SageMaker AI offre strategie di distribuzione e tecniche di risparmio di memoria, come la parallelizzazione dei dati sottoposti a sharding, la parallelizzazione tensoriale, il partizionamento dei modelli per livelli per la pianificazione delle pipeline e il checkpoint. Le strategie e le tecniche di parallelismo dei modelli aiutano a distribuire modelli di grandi dimensioni su più dispositivi, ottimizzando al contempo la velocità di addestramento e il consumo di memoria. La libreria fornisce anche funzioni di supporto in Python, gestori di contesto e funzioni wrapper per adattare lo script di addestramento per il partizionamento automatico o manuale del modello.

Quando si implementa il parallelismo dei modelli nel processo di addestramento, si mantiene lo stesso flusso di lavoro in due fasi mostrato nella sezione Esegui un processo di addestramento distribuito SageMaker con Parallelismo del modello. Per adattare lo script di addestramento, aggiungerete zero o poche righe di codice aggiuntive allo script di addestramento. Per avviare un processo di addestramento dello script di addestramento adattato, è necessario impostare i parametri di configurazione della distribuzione per attivare le funzioni di risparmio di memoria o per trasmettere i valori relativi al grado di parallelismo.

Per iniziare con gli esempi, consulta i seguenti notebook Jupyter che mostrano come utilizzare la libreria di parallelismo dei modelli SageMaker.

Per approfondire le caratteristiche principali della libreria, consulta i seguenti argomenti.

Nota

Le librerie di addestramento distribuito di SageMaker sono disponibili tramite i container di deep learning per PyTorch AWS, Hugging Face e TensorFlow all'interno della piattaforma Addestramento SageMaker. Per utilizzare le funzionalità delle librerie di addestramento distribuito, si consiglia di utilizzare SDK Python di SageMaker. Puoi anche configurare manualmente la sintassi della richiesta JSON se utilizzi le API SageMaker tramite SDK per Python (Boto3) o AWS Command Line Interface. In tutta la documentazione, le istruzioni e gli esempi si concentrano su come utilizzare le librerie di addestramento distribuito con SDK Python di SageMaker.

Importante

La libreria di parallelismo dei modelli SageMaker supporta tutte le funzionalità principali di PyTorch e supporta il parallelismo delle pipeline per TensorFlow.