Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation de l'opérateur HyperPod de formation
L'opérateur de SageMaker HyperPod formation Amazon vous aide à accélérer le développement de modèles d'IA générative en gérant efficacement la formation distribuée sur de grands clusters de GPU. Il intègre des fonctionnalités intelligentes de restauration après panne, de détection des interruptions de tâche et de gestion au niveau des processus qui minimisent les interruptions d’entraînement et réduisent les coûts. Contrairement à l’infrastructure d’entraînement traditionnelle qui nécessite le redémarrage complet des tâches en cas de défaillance, cet opérateur met en œuvre la récupération chirurgicale des processus pour maintenir le bon déroulement de vos tâches d’entraînement.
L'opérateur utilise également les fonctions de surveillance HyperPod de l'état de santé et d'observabilité de l'opérateur, qui fournissent une visibilité en temps réel sur l'exécution de la formation et une surveillance automatique des indicateurs critiques tels que les pics de pertes et la dégradation du débit. Vous pouvez définir des politiques de récupération par le biais de configurations YAML simples sans modifier le code, ce qui vous permet de réagir rapidement et de récupérer à partir d’états d’entraînement irrécupérables. Ces fonctionnalités de surveillance et de récupération fonctionnent ensemble pour maintenir des performances d’entraînement optimales tout en minimisant les frais d’exploitation.
Bien que Kueue ne soit pas requis pour cet opérateur d’entraînement, votre administrateur de cluster peut l’installer et le configurer pour améliorer les fonctionnalités de planification des tâches. Pour plus d’informations, consultez la documentation officielle pour Kueue
Note
Pour utiliser l'opérateur de formation, vous devez utiliser la dernière version de l' HyperPod AMI. Pour effectuer la mise à niveau, utilisez l'opération UpdateClusterSoftwareAPI. Si vous utilisez la gouvernance des HyperPod tâches, il doit également s'agir de la dernière version.
Versions prises en charge
L'opérateur de HyperPod formation fonctionne uniquement avec des versions spécifiques de Kubernetes, Kueue et. HyperPod Consultez la liste ci-dessous pour obtenir la liste complète des versions compatibles.
-
Versions de Kubernetes prises en charge : 1.28, 1.29, 1.30, 1.31, 1.32 et 1.33
-
La dernière version de l' HyperPod AMI. Pour effectuer une mise à niveau vers la dernière version de l'AMI, utilisez l' UpdateClusterSoftwareAPI.
Note
Nous collectons certaines mesures opérationnelles agrégées et anonymisées de routine afin de garantir la disponibilité des services essentiels. La création de ces métriques est entièrement automatisée et n'implique aucun examen humain de la charge de travail de formation du modèle sous-jacent. Ces indicateurs concernent les opérations d'une tâche, la gestion des ressources et les fonctionnalités essentielles des services.