Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Notas de la versión
Consulte las siguientes notas de la versión para realizar un seguimiento de las últimas actualizaciones de la formación SageMaker HyperPod sin puntos de control.
El entrenamiento sin SageMaker HyperPod puntos de control (versión 1.0.0)
Fecha: 3 de diciembre de 2025
SageMaker HyperPod Funciones de entrenamiento sin puntos de control
-
Mejoras en la inicialización de la comunicación colectiva: ofrece métodos de inicialización novedosos, como Rootless y para NCCL y TCPStoreless Gloo.
-
Cargador de datos mapeado en memoria (MMAP): almacena en caché (conserva) los lotes precargados para que estén disponibles incluso cuando un fallo provoque que se reinicie el trabajo de formación.
-
Sin puntos de control: permite una recuperación más rápida de los errores de entrenamiento en clústeres en entornos de entrenamiento distribuidos a gran escala mediante optimizaciones a nivel del marco
-
Basado en Nvidia Nemo y PyTorch Lightning: aprovecha estos potentes marcos para un entrenamiento de modelos eficiente y flexible
SageMaker HyperPod Contenedor Docker de entrenamiento sin control
Checkpointless Training on HyperPod se basa en el marco de NVIDIA. NeMo
Disponibilidad.
Actualmente, las imágenes solo están disponibles en:
eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2
pero no están disponibles en las siguientes 3 regiones de suscripción voluntaria:
ap-southeast-3 ap-southeast-4 eu-south-2
Detalles del contenedor
Contenedor Docker de entrenamiento sin control para PyTorch la versión 2.6.0 con la versión 12.9 de CUDA
963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
Paquetes preinstalados
PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0