Orquestación de clústeres de SageMaker HyperPod con Slurm
La compatibilidad con Slurm en SageMaker HyperPod le ayuda a aprovisionar clústeres resilientes para ejecutar cargas de trabajo de machine learning (ML) y desarrollar modelos de última generación, como modelos de lenguaje grandes (LLM), modelos de difusión y modelos fundacionales (FM). Acelera el desarrollo de FM al eliminar el trabajo pesado e indiferenciado que implica la creación y el mantenimiento de clústeres de computación a gran escala basados en miles de aceleradores, como AWS Trainium y las unidades de procesamiento gráfico (GPU) NVIDIA A100 y H100. Cuando los aceleradores fallan, las características de resiliencia de SageMaker HyperPod supervisan las instancias del clúster, detectan automáticamente el hardware defectuoso y lo sustituyen sobre la marcha para que pueda centrarse en ejecutar cargas de trabajo de ML. Además, gracias a la compatibilidad con la configuración del ciclo de vida en SageMaker HyperPod, puede personalizar su entorno de computación para que se adapte mejor a sus necesidades y configurarlo con las bibliotecas de entrenamiento distribuido de Amazon SageMaker AI para lograr un rendimiento óptimo en AWS.
Utilización de los clústeres
Puede crear, configurar y mantener clústeres de SageMaker HyperPod de forma gráfica a través de la interfaz de usuario (UI) de la consola y mediante programación a través de la interfaz de la línea de comandos (CLI) de AWS o AWS SDK para Python (Boto3). Con Amazon VPC, puede proteger la red de clústeres y, además, aprovechar la configuración del clúster con los recursos de la VPC, como Amazon FSx para Lustre, que ofrece el rendimiento más rápido. También puede asignar diferentes roles de IAM a los grupos de instancias del clúster y limitar las acciones que pueden llevar a cabo los usuarios y los recursos del clúster. Para obtener más información, consulte Operaciones del clúster de SageMaker HyperPod Slurm.
Configuración del entorno de ML
SageMaker HyperPod ejecuta DLAMI de SageMaker HyperPod, que configura un entorno de ML en los clústeres de HyperPod. Puede configurar personalizaciones adicionales para la DLAMI proporcionando scripts de ciclo de vida que admitan su caso de uso. Para obtener más información sobre cómo configurar scripts de ciclo de vida, consulte Introducción a SageMaker HyperPod y Personalización de los clústeres de SageMaker HyperPod con scripts de ciclo de vida.
Programación de trabajos
Tras crear correctamente un clúster de HyperPod, los usuarios del clúster pueden iniciar sesión en los nodos del clúster (como el nodo principal o de controlador, el nodo de inicio de sesión y el nodo de trabajo) y programar tareas para ejecutar cargas de trabajo de machine learning. Para obtener más información, consulte Trabajos en clústeres de SageMaker HyperPod.
Resiliencia frente a los fallos de hardware
SageMaker HyperPod realiza comprobaciones de estado en los nodos del clúster y proporciona una función de reanudación automática de la carga de trabajo. Con las características de resiliencia del clúster de HyperPod, puede reanudar la carga de trabajo desde el último punto de comprobación guardado, después de reemplazar los nodos defectuosos por otros en buen estado en los clústeres con más de 16 nodos. Para obtener más información, consulte Resiliencia del clúster de SageMaker HyperPod.
Registro y administración de clústeres
Puede encontrar los registros de ciclo de vida y las métricas de uso de los recursos de SageMaker HyperPod en Amazon CloudWatch, y administrar los recursos de SageMaker HyperPod etiquetándolos. Cada ejecución de la API CreateCluster crea un flujo de registro distinto, que se muestra en formato <cluster-name>-<timestamp>. En el flujo de registro, puede comprobar los nombres de los hosts, el nombre de los scripts de ciclo de vida fallidos y los resultados de los scripts fallidos, como stdout y stderr. Para obtener más información, consulte Administración de clústeres de SageMaker HyperPod.
Compatible con las herramientas de SageMaker AI
Con SageMaker HyperPod, puede configurar clústeres con las bibliotecas de comunicaciones colectivas optimizadas de AWS que ofrece SageMaker AI, como la Biblioteca de paralelismo de datos distribuidos de SageMaker AI (SMDDP). La biblioteca de SMDDP implementa la operación AllGather optimizada para la infraestructura de red y computación de AWS para las instancias de machine learning de SageMaker AI de mayor rendimiento basadas en GPU NVIDIA A100. Para obtener más información, consulte Ejecución de cargas de trabajo de entrenamiento distribuido con Slurm en HyperPod.
Colocación de instancias con UltraServers
SageMaker AI asigna automáticamente los trabajos a las instancias de su UltraServer según una estrategia de máximo esfuerzo que consiste en utilizar todas las instancias de un UltraServer antes de pasar a otro. Por ejemplo, si solicita 14 instancias y tiene 2 UltraServers en el plan de entrenamiento, SageMaker AI utiliza todas las instancias del primer UltraServer. Si ha solicitado 20 instancias y tiene 2 UltraServers en el plan de entrenamiento, SageMaker AI utilizará las 17 instancias del primer UltraServer y luego 3 del segundo UltraServer.