Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
HyperPod Checkpointless-Trainingsfunktionen
Auf den folgenden Seiten erfahren Sie mehr über die Trainingsfunktionen des Checkpointless-Trainings.
Themen
Amazon SageMaker HyperPod Checkpointless-Schulungsrepositorien
HyperPod Training ohne Checkpoint
Das Checkpointless-Training wird über drei Optimierungstracks ermöglicht, die zusammen laufen:
-
Verbesserungen der Kommunikationsinitialisierung (NCCL und Gloo) — Beseitigen Sie Kommunikationsengpässe, indem Sie Rang-Peer- und Ringinformationen dezentralisieren (rotes Feld unten).
-
Optimierungen beim Laden von Daten — Reduzieren Sie den Zeitaufwand für die Bereitstellung des ersten Datenstapels bei Neustartvorgängen (orangefarbene Felder unten).
-
Reduzierung des Programmneustartaufwands — Minimiert die Neustartkosten und ermöglicht die Wiederherstellung ohne Checkpoint durch Wiederherstellung von Prozessen auf fehlerfreien Knoten (blaue und grüne Felder unten).