Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Checkpointless-Schulungen bei Amazon SageMaker HyperPod
Checkpointless-Training bei Amazon SageMaker HyperPod ermöglicht eine schnellere Wiederherstellung nach Fehlern in der Trainingsinfrastruktur. Die folgende Dokumentation hilft Ihnen bei den ersten Schritten mit Checkpointless-Schulungen und der Feinabstimmung für unterstützte Modelle. NeMo
Für das Checkpointless-Training gelten die folgenden Voraussetzungen:
-
Erste Schritte mit der Amazon EKS-Unterstützung in SageMaker HyperPod
-
Den Trainingsoperator installieren. Sie müssen v1.2.0 oder höher installieren.
Checkpointless Training on SageMaker HyperPod basiert auf dem NVIDIA NeMo Framework-Benutzerhandbuch
Die folgenden HyperPod Rezepte sind mit Trainingsoptimierungen ohne Checkpoints vorkonfiguriert. Sie können Ihre Datenpfade als Teil des Rezepts angeben und das zugehörige Startskript verwenden, um das Training auszuführen (siehe Kurzanleitung unten):
| Modell | Methode | Größe | Knoten | Instance | Accelerator | Rezept | Script | Tutorial |
|---|---|---|---|---|---|---|---|---|
| ICH HABE UNS | Vollständiges Finetune-Beispiel | 120b | 16 | p5.48xlarge | GPU H100 | verlinken |
verlinken |
verlinken |
| ICH HABE UNS | Lora-Beispiel | 120b | 2 | p5.48xlarge | GPU H100 | verlinken |
verlinken |
verlinken |
| Lama 3 | Beispiel für Pretrain | 70b | 16 | p5.48xlarge | GPU H100 | Link |
verlinken |
verlinken |
| Lama 3 | Lora-Beispiel | 70b | 2 | p5.48xlarge | GPU H100 | Link |
verlinken |
verlinken |
Die folgende Schnellstartanleitung enthält Tutorials zur Verwendung von Trainingsrezepten ohne Checkpoint:
Beispiele für den Einstieg
-
Tutorials — Vollständige Feinabstimmung von Amazon SageMaker HyperPod Checkpointless GPT OSS 120b
-
Anleitungen — Amazon SageMaker HyperPod Checkpointless LEFT-LoRa GPT OSS 120b
-
Anleitungen — Amazon SageMaker HyperPod Checkpointless Pretraining Llama 3 70b
-
Anleitungen — Amazon SageMaker HyperPod Checkpointless Left-LoRa Lama 3 70b
Wenn Sie benutzerdefinierte Modelle vorab trainieren oder optimieren möchten, finden Sie weitere Informationen unter. Tutorials — Amazon SageMaker HyperPod Checkpointless — Vortraining oder Feinabstimmung benutzerdefinierter Modelle
Weitere Informationen zur Integration bestimmter Trainingskomponenten ohne Checkpoint finden Sie unter. HyperPod Checkpointless-Trainingsfunktionen