Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Notes de mise à jour
Consultez les notes de mise à jour suivantes pour suivre les dernières mises à jour relatives à la formation SageMaker HyperPod sans point de contrôle.
L'entraînement SageMaker HyperPod sans point de contrôle v1.0.1
Date : 10 avril 2026
Correctifs de bogue
-
Correction d'une liaison incorrecte du périphérique CUDA dans le thread de gestion des pannes. Le thread de gestion des pannes définit désormais correctement le contexte du périphérique CUDA en utilisant
LOCAL_RANK. Ce correctif évite les erreurs de non-concordance des périphériques lors de la restauration en cours de processus.
L'entraînement SageMaker HyperPod sans point de contrôle v1.0.0
Date : 3 décembre 2025
SageMaker HyperPod Fonctionnalités d'entraînement sans point de contrôle
-
Améliorations de l'initialisation de la communication collective : propose de nouvelles méthodes d'initialisation, Rootless et TCPStoreless pour NCCL et Gloo.
-
Chargeur de données à mappage en mémoire (MMAP) : met en cache (persiste) les lots préextraits afin qu'ils soient disponibles même en cas de panne entraînant le redémarrage de la tâche d'entraînement.
-
Checkpointless : permet une restauration plus rapide en cas d'erreurs d'entraînement en cluster dans des environnements de formation distribués à grande échelle en effectuant des optimisations au niveau du framework
-
Construit sur Nvidia Nemo et PyTorch Lightning : utilise ces puissants frameworks pour un entraînement de modèles efficace et flexible
SageMaker HyperPod Conteneur Docker d'entraînement sans point
La formation sur Checkpointless HyperPod est basée sur le framework NVIDIA NeMo
Disponibilité
Actuellement, les images ne sont disponibles que dans les formats suivants :
eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2
mais non disponible dans les 3 régions optionnelles suivantes :
ap-southeast-3 ap-southeast-4 eu-south-2
Détails du conteneur
Conteneur Docker d'entraînement sans point pour PyTorch v2.6.0 avec CUDA v12.9
963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
Packages préinstallés
PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0