Esecuzione dell’addestramento distribuito con la libreria SageMaker AI Distributed Data Parallelism (SMDDP) - Amazon SageMaker AI

Esecuzione dell’addestramento distribuito con la libreria SageMaker AI Distributed Data Parallelism (SMDDP)

La libreria SageMaker AI Distributed Data Parallelism (SMDDP) estende le funzionalità di addestramento di SageMaker ai modelli di deep learning, con un’efficienza di dimensionamento quasi lineare, fornendo implementazioni di operazioni di comunicazione collettiva ottimizzate per l’infrastruttura AWS.

Quando si addestrano modelli di machine learning (ML) di grandi dimensioni, come modelli linguistici di grandi dimensioni (LLM) e modelli di diffusione, su un enorme set di dati di addestramento, i professionisti del machine learning utilizzano cluster di acceleratori e tecniche di addestramento distribuito per ridurre i tempi di addestramento o risolvere i vincoli di memoria per i modelli non adatti a ogni memoria GPU. I professionisti del machine learning spesso iniziano con più acceleratori su una singola istanza, per poi passare a cluster di istanze man mano che aumentano i requisiti del carico di lavoro. Quando aumentano le dimensioni del cluster, aumenta anche il sovraccarico di comunicazione tra più nodi, con un conseguente calo delle prestazioni di calcolo complessive.

Per risolvere i problemi di sovraccarico e di memoria, la libreria SMDDP offre quanto segue.

  • La libreria SMDDP ottimizza i job di addestramento per l’infrastruttura di rete AWS e la topologia delle istanze di Amazon SageMaker AI ML.

  • La libreria SMDDP migliora la comunicazione tra i nodi con implementazioni di operazioni di comunicazione collettiva AllReduce e AllGather ottimizzate per l’infrastruttura AWS.

Per ulteriori informazioni sui dettagli delle offerte della libreria SMDDP, consulta Introduzione alla libreria SageMaker AI Distributed Data Parallelism.

Per ulteriori informazioni sull’addestramento con la strategia di parallelizzazione dei modelli offerta da SageMaker AI, consulta anche (Archiviata) Libreria SageMaker Model Parallelism v1.x.