Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Notes de mise à jour
Consultez les notes de mise à jour suivantes pour suivre les dernières mises à jour relatives à la formation SageMaker HyperPod sans point de contrôle.
L'entraînement SageMaker HyperPod sans point de contrôle v1.0.0
Date : 03 décembre 2025
SageMaker HyperPod Fonctionnalités d'entraînement sans point de contrôle
-
Améliorations de l'initialisation de la communication collective : propose de nouvelles méthodes d'initialisation, Rootless et TCPStoreless pour NCCL et Gloo.
-
Chargeur de données à mappage en mémoire (MMAP) : met en cache (persiste) les lots préextraits afin qu'ils soient disponibles même en cas de panne entraînant le redémarrage de la tâche d'entraînement.
-
Checkpointless : permet une restauration plus rapide en cas d'erreurs d'entraînement en cluster dans des environnements de formation distribués à grande échelle en effectuant des optimisations au niveau du framework
-
Construit sur Nvidia Nemo et PyTorch Lightning : utilise ces puissants frameworks pour un entraînement de modèles efficace et flexible
SageMaker HyperPod Conteneur Docker d'entraînement sans point
La formation sur Checkpointless HyperPod est basée sur le framework NVIDIA NeMo
Disponibilité
Actuellement, les images ne sont disponibles que dans les formats suivants :
eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2
mais non disponible dans les 3 régions optionnelles suivantes :
ap-southeast-3 ap-southeast-4 eu-south-2
Détails du conteneur
Conteneur Docker d'entraînement sans point pour PyTorch v2.6.0 avec CUDA v12.9
963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
Packages préinstallés
PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0