Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Formation sans point de contrôle sur Amazon SageMaker HyperPod
La formation sans points de contrôle sur Amazon SageMaker HyperPod permet une reprise plus rapide en cas de défaillance de l'infrastructure de formation. La documentation suivante vous aide à démarrer avec une formation sans point de contrôle et à peaufiner les NeMo modèles compatibles.
La formation Checkpointless comporte les prérequis suivants :
-
Commencer à utiliser le support Amazon EKS dans SageMaker HyperPod
-
Installation de l’opérateur d’entraînement. Vous devez installer la version 1.2.0 ou une version ultérieure.
La formation sur Checkpointless SageMaker HyperPod est basée sur le guide de l'utilisateur du NVIDIA NeMo Framework
Les HyperPod recettes suivantes sont préconfigurées avec des optimisations d'entraînement sans point de contrôle. Vous pouvez spécifier vos chemins de données dans le cadre de la recette et utiliser le script de lancement associé pour exécuter l'entraînement (voir le guide de démarrage rapide ci-dessous) :
| Modèle | Method | Size | Nœuds | Instance | Accélérateur | Formule | Script | didacticiel |
|---|---|---|---|---|---|---|---|---|
| PERTE D'ARGENT | Exemple de réglage complet | 120 b | 16 | p5.48xlarge | GPU H100 | lien |
lien |
lien |
| PERTE D'ARGENT | LORA - Exemple | 120 b | 2 | p5.48xlarge | GPU H100 | lien |
lien |
lien |
| Lama 3 | Exemple de préentraînement | 70b | 16 | p5.48xlarge | GPU H100 | lien |
lien |
lien |
| Lama 3 | LORA - Exemple | 70b | 2 | p5.48xlarge | GPU H100 | lien |
lien |
lien |
Le guide de démarrage rapide suivant propose des didacticiels sur l'utilisation de recettes d'entraînement sans point de contrôle :
Exemples de mise en route
-
Tutoriels - Amazon SageMaker HyperPod Checkpointless Full Finetuning GPT OSS 120b
-
Tutoriels - Amazon SageMaker HyperPod Checkpointless Peft-LoRa GPT OSS 120b
-
Tutoriels - Amazon SageMaker HyperPod Checkpointless Pretraining Llama 3 70b
-
Tutoriels - Amazon SageMaker HyperPod Checkpointless Peft-LoRa Llama 3 70b
Si vous souhaitez pré-entraîner ou peaufiner des modèles personnalisés, consultez. Tutoriels - Modèles personnalisés de préentraînement ou de réglage précis d'Amazon SageMaker HyperPod Checkpointless
Pour en savoir plus sur l'intégration de composants spécifiques de formation sans point de contrôle,. HyperPod fonctionnalités d'entraînement sans point de contrôle