Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
HyperPod funciones de entrenamiento sin puntos de control
Consulte las páginas siguientes para obtener información sobre las funciones de formación de la formación sin puntos de control.
Temas
Repositorios de formación SageMaker HyperPod sin control de Amazon
HyperPod La formación sin control
El entrenamiento sin control se puede realizar mediante tres pistas de optimización que se ejecutan de forma simultánea:
-
Mejoras en la inicialización de la comunicación (NCCL y Gloo): Elimine los cuellos de botella en la comunicación mediante la descentralización de la información de clasificación entre pares y círculos (recuadro rojo a continuación).
-
Optimizaciones de carga de datos: reduzca el tiempo necesario para entregar el primer lote de datos durante las operaciones de reinicio (recuadros naranjas a continuación).
-
Reducción de la sobrecarga de reinicio del programa: minimice los costos de reinicio y permita el reabastecimiento sin puntos de control mediante la recuperación de procesos en los nodos en buen estado (recuadros azules y verdes a continuación).