HyperPod funciones de entrenamiento sin puntos de control - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

HyperPod funciones de entrenamiento sin puntos de control

Consulte las páginas siguientes para obtener información sobre las funciones de formación de la formación sin puntos de control.

Repositorios de formación SageMaker HyperPod sin control de Amazon

HyperPod La formación sin control acelera la recuperación de los fallos de los clústeres en entornos de formación distribuidos a gran escala mediante optimizaciones a nivel de marco. Estas optimizaciones se proporcionan a través de una imagen de contenedor base que incluye mejoras mejoradas en la inicialización de la NCCL, optimizaciones de carga de datos y componentes de recuperación en proceso y sin puntos de control. El paquete de formación sin HyperPod puntos de control se basa en esta base.

El entrenamiento sin control se puede realizar mediante tres pistas de optimización que se ejecutan de forma simultánea:

  • Mejoras en la inicialización de la comunicación (NCCL y Gloo): Elimine los cuellos de botella en la comunicación mediante la descentralización de la información de clasificación entre pares y círculos (recuadro rojo a continuación).

  • Optimizaciones de carga de datos: reduzca el tiempo necesario para entregar el primer lote de datos durante las operaciones de reinicio (recuadros naranjas a continuación).

  • Reducción de la sobrecarga de reinicio del programa: minimice los costos de reinicio y permita el reabastecimiento sin puntos de control mediante la recuperación de procesos en los nodos en buen estado (recuadros azules y verdes a continuación).