Formation sans point de contrôle sur Amazon SageMaker HyperPod - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Formation sans point de contrôle sur Amazon SageMaker HyperPod

La formation sans points de contrôle sur Amazon SageMaker HyperPod permet une reprise plus rapide en cas de défaillance de l'infrastructure de formation. La documentation suivante vous aide à démarrer avec une formation sans point de contrôle et à peaufiner les NeMo modèles compatibles.

La formation Checkpointless comporte les prérequis suivants :

La formation sur Checkpointless SageMaker HyperPod est basée sur le guide de l'utilisateur du NVIDIA NeMo Framework. Vous pouvez exécuter un entraînement sans point de contrôle avec des recettes SageMaker HyperPod prédéfinies. Si vous les connaissez NeMo, le processus d'utilisation des recettes d'entraînement sans point de contrôle est similaire. Avec des modifications mineures, vous pouvez commencer à entraîner un modèle à l'aide de fonctionnalités d'entraînement sans points de contrôle qui vous permettent de récupérer rapidement après des erreurs d'entraînement.

Les HyperPod recettes suivantes sont préconfigurées avec des optimisations d'entraînement sans point de contrôle. Vous pouvez spécifier vos chemins de données dans le cadre de la recette et utiliser le script de lancement associé pour exécuter l'entraînement (voir le guide de démarrage rapide ci-dessous) :

Modèle Method Size Nœuds Instance Accélérateur Formule Script didacticiel
PERTE D'ARGENT Exemple de réglage complet 120 b 16 p5.48xlarge GPU H100 lien lien lien
PERTE D'ARGENT LORA - Exemple 120 b 2 p5.48xlarge GPU H100 lien lien lien
Lama 3 Exemple de préentraînement 70b 16 p5.48xlarge GPU H100 lien lien lien
Lama 3 LORA - Exemple 70b 2 p5.48xlarge GPU H100 lien lien lien

Le guide de démarrage rapide suivant propose des didacticiels sur l'utilisation de recettes d'entraînement sans point de contrôle :

Exemples de mise en route

Si vous souhaitez pré-entraîner ou peaufiner des modèles personnalisés, consultez. Tutoriels - Modèles personnalisés de préentraînement ou de réglage précis d'Amazon SageMaker HyperPod Checkpointless

Pour en savoir plus sur l'intégration de composants spécifiques de formation sans point de contrôle,. HyperPod fonctionnalités d'entraînement sans point de contrôle