Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
HyperPod funzionalità di formazione senza checkpointless
Consulta le pagine seguenti per conoscere le funzionalità di formazione della formazione senza checkpointless.
Argomenti
Archivi di formazione SageMaker HyperPod senza checkpoint di Amazon
HyperPod checkpointless training
La formazione Checkpointless è abilitata tramite tre percorsi di ottimizzazione eseguiti in sinergia:
-
Miglioramenti all'inizializzazione della comunicazione (NCCL e Gloo): elimina gli ostacoli alla comunicazione decentralizzando le informazioni di rango tra pari e ring (riquadro rosso in basso).
-
Ottimizzazioni del caricamento dei dati: riduci il tempo necessario per fornire il primo batch di dati durante le operazioni di riavvio (riquadri arancioni sotto).
-
Riduzione del sovraccarico di riavvio del programma: riduci al minimo i costi di riavvio e abilita il rifornimento senza checkpoint attraverso il ripristino del processo su nodi integri (riquadri blu e verdi di seguito).