Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Notas de la versión
Consulte las siguientes notas de la versión para realizar un seguimiento de las últimas actualizaciones de la formación SageMaker HyperPod sin puntos de control.
El entrenamiento sin SageMaker HyperPod puntos de control (v1.0.1)
Fecha: 10 de abril de 2026
Correcciones de errores
-
Se corrigió un enlace incorrecto del dispositivo CUDA en el hilo de gestión de fallas. El subproceso de gestión de fallos ahora establece correctamente el contexto del dispositivo CUDA mediante el uso de.
LOCAL_RANKEsta corrección evita los errores de discordancia de los dispositivos durante la recuperación de errores durante el proceso.
El entrenamiento sin SageMaker HyperPod puntos de control v1.0.0
Fecha: 3 de diciembre de 2025
SageMaker HyperPod Funciones de entrenamiento sin puntos de control
-
Mejoras en la inicialización de la comunicación colectiva: ofrece métodos de inicialización novedosos, como Rootless y para NCCL y TCPStoreless Gloo.
-
Cargador de datos mapeado en memoria (MMAP): almacena en caché (conserva) los lotes precargados para que estén disponibles incluso cuando un fallo provoque que se reinicie el trabajo de formación.
-
Sin puntos de control: permite una recuperación más rápida de los errores de entrenamiento en clústeres en entornos de entrenamiento distribuidos a gran escala mediante optimizaciones a nivel del marco
-
Basado en Nvidia Nemo y PyTorch Lightning: aprovecha estos potentes marcos para un entrenamiento de modelos eficiente y flexible
SageMaker HyperPod Contenedor Docker de entrenamiento sin control
Checkpointless Training on HyperPod se basa en el marco de NVIDIA. NeMo
Disponibilidad.
Actualmente, las imágenes solo están disponibles en:
eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2
pero no están disponibles en las siguientes 3 regiones en las que se ha optado por participar:
ap-southeast-3 ap-southeast-4 eu-south-2
Detalles del contenedor
Contenedor Docker de entrenamiento sin control para PyTorch la versión 2.6.0 con la versión 12.9 de CUDA
963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
Paquetes preinstalados
PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0