Checkpointless-Schulungen bei Amazon SageMaker HyperPod

Checkpointless-Training bei Amazon SageMaker HyperPod ermöglicht eine schnellere Wiederherstellung nach Fehlern in der Trainingsinfrastruktur. Die folgende Dokumentation hilft Ihnen bei den ersten Schritten mit Checkpointless-Schulungen und der Feinabstimmung für unterstützte Modelle. NeMo

Für das Checkpointless-Training gelten die folgenden Voraussetzungen:

Erste Schritte mit der Amazon EKS-Unterstützung in SageMaker HyperPod
Den Trainingsoperator installieren. Sie müssen v1.2.0 oder höher installieren.

Checkpointless Training on SageMaker HyperPod basiert auf dem NVIDIA NeMo Framework-Benutzerhandbuch. Sie können Checkpointless-Training mit vorgefertigten Rezepten durchführen. SageMaker HyperPod Wenn Sie damit vertraut sind NeMo, ist der Prozess der Verwendung der Trainingsrezepte für Checkpointless-Trainings ähnlich. Mit geringfügigen Änderungen können Sie beginnen, ein Modell mithilfe von Trainingsfunktionen ohne Kontrollpunkte zu trainieren, mit denen Sie sich schnell von Trainingsfehlern erholen können.

Die folgenden HyperPod Rezepte sind mit Trainingsoptimierungen ohne Checkpoints vorkonfiguriert. Sie können Ihre Datenpfade als Teil des Rezepts angeben und das zugehörige Startskript verwenden, um das Training auszuführen (siehe Kurzanleitung unten):

Modell	Methode	Größe	Knoten	Instance	Accelerator	Rezept	Script	Tutorial
ICH HABE UNS	Vollständiges Finetune-Beispiel	120b	16	p5.48xlarge	GPU H100	verlinken	verlinken	verlinken
ICH HABE UNS	Lora-Beispiel	120b	2	p5.48xlarge	GPU H100	verlinken	verlinken	verlinken
Lama 3	Beispiel für Pretrain	70b	16	p5.48xlarge	GPU H100	Link	verlinken	verlinken
Lama 3	Lora-Beispiel	70b	2	p5.48xlarge	GPU H100	Link	verlinken	verlinken

Die folgende Schnellstartanleitung enthält Tutorials zur Verwendung von Trainingsrezepten ohne Checkpoint:

Beispiele für den Einstieg

Wenn Sie benutzerdefinierte Modelle vorab trainieren oder optimieren möchten, finden Sie weitere Informationen unter. Tutorials — Amazon SageMaker HyperPod Checkpointless — Vortraining oder Feinabstimmung benutzerdefinierter Modelle

Weitere Informationen zur Integration bestimmter Trainingskomponenten ohne Checkpoint finden Sie unter. HyperPod Checkpointless-Trainingsfunktionen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Benutzerdefinierte Kubernetes-Labels und -Taints

Tutorials für Schulungen