Checkpointless-Schulungen bei Amazon SageMaker HyperPod - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Checkpointless-Schulungen bei Amazon SageMaker HyperPod

Checkpointless-Training bei Amazon SageMaker HyperPod ermöglicht eine schnellere Wiederherstellung nach Fehlern in der Trainingsinfrastruktur. Die folgende Dokumentation hilft Ihnen bei den ersten Schritten mit Checkpointless-Schulungen und der Feinabstimmung für unterstützte Modelle. NeMo

Für das Checkpointless-Training gelten die folgenden Voraussetzungen:

Checkpointless Training on SageMaker HyperPod basiert auf dem NVIDIA NeMo Framework-Benutzerhandbuch. Sie können Checkpointless-Training mit vorgefertigten Rezepten durchführen. SageMaker HyperPod Wenn Sie damit vertraut sind NeMo, ist der Prozess der Verwendung der Trainingsrezepte für Checkpointless-Trainings ähnlich. Mit geringfügigen Änderungen können Sie beginnen, ein Modell mithilfe von Trainingsfunktionen ohne Kontrollpunkte zu trainieren, mit denen Sie sich schnell von Trainingsfehlern erholen können.

Die folgenden HyperPod Rezepte sind mit Trainingsoptimierungen ohne Checkpoints vorkonfiguriert. Sie können Ihre Datenpfade als Teil des Rezepts angeben und das zugehörige Startskript verwenden, um das Training auszuführen (siehe Kurzanleitung unten):

Modell Methode Größe Knoten Instance Accelerator Rezept Script Tutorial
ICH HABE UNS Vollständiges Finetune-Beispiel 120b 16 p5.48xlarge GPU H100 verlinken verlinken verlinken
ICH HABE UNS Lora-Beispiel 120b 2 p5.48xlarge GPU H100 verlinken verlinken verlinken
Lama 3 Beispiel für Pretrain 70b 16 p5.48xlarge GPU H100 Link verlinken verlinken
Lama 3 Lora-Beispiel 70b 2 p5.48xlarge GPU H100 Link verlinken verlinken

Die folgende Schnellstartanleitung enthält Tutorials zur Verwendung von Trainingsrezepten ohne Checkpoint:

Beispiele für den Einstieg

Wenn Sie benutzerdefinierte Modelle vorab trainieren oder optimieren möchten, finden Sie weitere Informationen unter. Tutorials — Amazon SageMaker HyperPod Checkpointless — Vortraining oder Feinabstimmung benutzerdefinierter Modelle

Weitere Informationen zur Integration bestimmter Trainingskomponenten ohne Checkpoint finden Sie unter. HyperPod Checkpointless-Trainingsfunktionen