Notes de mise à jour - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Notes de mise à jour

Consultez les notes de mise à jour suivantes pour suivre les dernières mises à jour relatives à la formation SageMaker HyperPod sans point de contrôle.

L'entraînement SageMaker HyperPod sans point de contrôle v1.0.0

Date : 03 décembre 2025

SageMaker HyperPod Fonctionnalités d'entraînement sans point de contrôle

  • Améliorations de l'initialisation de la communication collective : propose de nouvelles méthodes d'initialisation, Rootless et TCPStoreless pour NCCL et Gloo.

  • Chargeur de données à mappage en mémoire (MMAP) : met en cache (persiste) les lots préextraits afin qu'ils soient disponibles même en cas de panne entraînant le redémarrage de la tâche d'entraînement.

  • Checkpointless : permet une restauration plus rapide en cas d'erreurs d'entraînement en cluster dans des environnements de formation distribués à grande échelle en effectuant des optimisations au niveau du framework

  • Construit sur Nvidia Nemo et PyTorch Lightning : utilise ces puissants frameworks pour un entraînement de modèles efficace et flexible

SageMaker HyperPod Conteneur Docker d'entraînement sans point

La formation sur Checkpointless HyperPod est basée sur le framework NVIDIA NeMo . HyperPod La formation sans points de contrôle vise à remédier plus rapidement aux erreurs d'entraînement en cluster dans des environnements de formation distribués à grande échelle en effectuant des optimisations au niveau du framework qui seront fournies sur un conteneur de base contenant l'image de base avec NCCL et des optimisations. PyTorch

Disponibilité

Actuellement, les images ne sont disponibles que dans les formats suivants :

eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2

mais non disponible dans les 3 régions optionnelles suivantes :

ap-southeast-3 ap-southeast-4 eu-south-2

Détails du conteneur

Conteneur Docker d'entraînement sans point pour PyTorch v2.6.0 avec CUDA v12.9

963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0

Packages préinstallés

PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0