Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
HyperPod puntos de control gestionados por niveles
En esta sección se explica cómo funcionan los puntos de control gestionados por niveles y las ventajas que ofrecen para la formación de modelos a gran escala.
Los puntos de control SageMaker HyperPod escalonados gestionados por Amazon te ayudan a entrenar modelos de IA generativa a gran escala de forma más eficiente. Utiliza varios niveles de almacenamiento, incluida la memoria de la CPU del clúster. Este enfoque reduce el tiempo de recuperación y minimiza las pérdidas durante el proceso de entrenamiento. También utiliza recursos de memoria infrautilizados de su infraestructura de entrenamiento.
Los puntos de control por niveles gestionados permiten guardar en la memoria los puntos de control con mayor frecuencia. Se guardan periódicamente en un almacenamiento duradero. Esto mantiene tanto el rendimiento como la fiabilidad durante el proceso de entrenamiento.
Esta guía explica cómo configurar, configurar y utilizar los puntos de control gestionados por niveles con PyTorch marcos en los clústeres de Amazon EKS HyperPod .
Cómo funcionan los puntos de control gestionados por niveles
Los puntos de control gestionados por niveles utilizan un enfoque de almacenamiento de varios niveles. La memoria de la CPU es el nivel principal donde se almacenan los puntos de comprobación del modelo. Los niveles secundarios incluyen opciones de almacenamiento persistente, como Amazon S3.
Al guardar un punto de comprobación, el sistema lo almacena en el espacio de memoria asignado a los nodos de su clúster. Después replica automáticamente los datos en los nodos de computación adyacentes para mejorar la fiabilidad. Esta estrategia de replicación protege contra los fallos de uno o varios nodos y, al mismo tiempo, proporciona un acceso rápido a las operaciones de recuperación.
El sistema también guarda periódicamente los puntos de comprobación en el almacenamiento persistente de acuerdo con su configuración. Esto garantiza la durabilidad a largo plazo de su proceso de entrenamiento.
Los componentes clave son:
-
Sistema de administración de la memoria: es un daemon de administración de memoria que proporciona memoria desagregada como servicio para el almacenamiento en puntos de comprobación.
-
HyperPod Biblioteca de Python: interactúa con el almacenamiento desagregado APIs y proporciona utilidades para guardar, cargar y administrar puntos de control en todos los niveles
-
Replicación de puntos de comprobación: replica automáticamente los puntos de comprobación en varios nodos para garantizar la tolerancia a errores.
El sistema se integra perfectamente con los ciclos de PyTorch entrenamiento mediante sencillas llamadas a la API. Requiere realizar una serie de cambios mínimos en el código existente.
Ventajas
Los puntos de control gestionados por niveles ofrecen varias ventajas para la formación de modelos a gran escala:
-
Mejora del uso: administra la grabación, la replicación, la persistencia y la recuperación de los puntos de comprobación
-
Operaciones de puntos de comprobación más rápidas: el almacenamiento basado en memoria proporciona tiempos de carga y almacenamiento más rápidos en comparación con los puntos de comprobación basados en disco, lo que permite una recuperación más rápida
-
Tolerancia a errores: la replicación automática de puntos de comprobación entre nodos protege contra los fallos de los nodos de hardware
-
Cambios mínimos en el código: la integración sencilla de la API solo requiere modificaciones menores en los scripts de entrenamiento existentes
-
Mejora del rendimiento del entrenamiento: la reducción de la sobrecarga de los puntos de comprobación significa que se dedica más tiempo al entrenamiento real