Compatibilità con la libreria SMDDP ottimizzata per l'infrastruttura AWS - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Compatibilità con la libreria SMDDP ottimizzata per l'infrastruttura AWS

È possibile utilizzare la SageMaker model parallelism library v2 (SMP v2) insieme alla libreria SageMaker Distributed Data Parallelism (SMDDP) che offre operazioni di comunicazione collettiva ottimizzate per l'infrastruttura. AllGather AWS Nell’addestramento distribuito, le operazioni di comunicazione collettiva sono progettate per la sincronizzazione di più worker GPU e lo scambio di informazioni tra di loro. AllGather è una delle principali operazioni di comunicazione collettiva tipicamente utilizzate nella parallelizzazione dei dati sottoposti a sharding. Per ulteriori informazioni sul funzionamento SMDDP, vedere L'Operazione collettiva AllGather SMDDPottimizzazione di tali AllGather operazioni di comunicazione collettiva contribuirebbe direttamente a una formazione più rapida senza effetti collaterali sulla convergenza. end-to-end

Nota

La libreria SMDDP supporta le istanze P4 e P4de (vedi anche Framework, Regioni AWS e tipi di istanze supportati nella libreria SMDDP).

La libreria SMDDP si integra nativamente con il livello del gruppo di processi. PyTorch Per utilizzare la libreria SMDDP, è sufficiente aggiungere due righe di codice allo script di addestramento. Supporta qualsiasi framework di formazione come SageMaker Model Parallelism Library, FSDP e. PyTorch DeepSpeed

Per attivare SMDDP e utilizzarne l’operazione AllGather, è necessario aggiungere due righe di codice allo script di addestramento nell’ambito di Fase 1: adattamento dello script di addestramento PyTorch FSDP. Tieni presente che devi prima inizializzare PyTorch Distributed with the SMDDP backend, quindi eseguire l'inizializzazione SMP.

import torch.distributed as dist # Initialize with SMDDP import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp") # Replacing "nccl" # Initialize with SMP import torch.sagemaker as tsm tsm.init()

SageMaker I Framework Containers for PyTorch (vedi anche Framework supportati e Regioni AWS di SMP v2 e della libreria SMDDP) sono Framework, Regioni AWS e tipi di istanze supportati preconfezionati con il binario SMP e il binario SMDDP. Per ulteriori informazioni sulla libreria SMDDP, vedi Esecuzione dell’addestramento distribuito con la libreria SageMaker AI Distributed Data Parallelism (SMDDP).