SageMaker HyperPod soporte para nodos de múltiples cabezales

Puede crear varios nodos controladores (principales) en un único clúster de SageMaker HyperPod Slurm, uno de ellos como nodo controlador principal y los demás como nodos controladores de respaldo. El nodo de controlador principal se encarga de controlar los nodos (de trabajo) de computación y de gestionar las operaciones de Slurm. Los nodos de controlador de respaldo supervisan constantemente el nodo de controlador principal. Si el nodo de controlador principal falla o deja de responder, uno de los nodos de controlador de respaldo pasará automáticamente a ser el nuevo nodo de controlador principal.

La configuración de varios nodos controladores en los clústeres de SageMaker HyperPod Slurm ofrece varias ventajas clave. Elimina el riesgo de que se produzca un fallo en uno de los nodos de controlador al proporcionar nodos principales de controlador, admite la conmutación automática por error a los nodos de controlador de respaldo con una recuperación más rápida y le permite administrar sus propias bases de datos de contabilidad y la configuración de Slurm de forma independiente.

Conceptos clave

A continuación, se proporcionan detalles sobre los conceptos relacionados con la compatibilidad con SageMaker HyperPod varios nodos controladores (principales) para los clústeres de Slurm.

Nodo de controlador

Un nodo de controlador es una instancia de Amazon EC2 dentro de un clúster que ejecuta los servicios esenciales de Slurm para administrar y coordinar las operaciones del clúster. En concreto, aloja el Slurm controller daemon (slurmctld) y el Slurm database daemon (slurmdbd). A un nodo de controlador también se le denomina nodo principal.

Nodo de controlador principal

Un nodo de controlador principal es el nodo de controlador activo y que controla en ese momento en un clúster de Slurm. Slurm lo identifica como el nodo de controlador principal responsable de administrar el clúster. El nodo de controlador principal recibe y ejecuta los comandos de los usuarios para controlar y asignar recursos en los nodos de computación para ejecutar los trabajos.

Nodo de controlador de respaldo

Un nodo de controlador de respaldo es un nodo de controlador inactivo y en espera en un clúster de Slurm. Slurm lo identifica como un nodo de controlador de respaldo que en esos momentos no administra el clúster. El nodo de controlador de respaldo ejecuta el Slurm controller daemon (slurmctld) en modo de espera. Todos los comandos de controlador que se ejecutan en los nodos de controlador de respaldo se propagarán al nodo de controlador principal para su ejecución. Su objetivo principal es supervisar continuamente el nodo de controlador principal y asumir sus responsabilidades en caso de que el nodo de controlador principal falle o deje de responder.

Nodo de computación

Un nodo de computación es una instancia de Amazon EC2 dentro de un clúster que aloja el Slurm worker daemon (slurmd). La función principal del nodo de computación es ejecutar los trabajos asignados por el Slurm controller daemon (slurmctld) que se ejecuta en el nodo de controlador principal. Cuando se programa un trabajo, el nodo de computación recibe instrucciones del Slurm controller daemon (slurmctld) para llevar a cabo las tareas y los cálculos necesarios para ese trabajo dentro del propio nodo. Al nodo de computación también se le denomina nodo de trabajo.

Funcionamiento

El siguiente diagrama ilustra cómo funcionan juntos AWS los diferentes servicios para admitir la arquitectura de múltiples nodos controladores (principales) para los clústeres de SageMaker HyperPod Slurm.

SageMaker HyperPod diagrama de arquitectura de nodos de múltiples cabezales.

Los AWS servicios que funcionan en conjunto para soportar la arquitectura de nodos con SageMaker HyperPod varios controladores (principales) son los siguientes.

AWS servicios que funcionan en conjunto para dar soporte a la arquitectura de SageMaker HyperPod múltiples nodos controladores
Servicio	Description (Descripción)
IAM (AWS Identity and Access Management)	Define dos roles de IAM para controlar los permisos de acceso: un rol para el grupo de instancias del nodo de computación y otro para el grupo de instancias del nodo de controlador.
Amazon RDS para MariaDB	Almacena los datos contables de Slurm, que contienen los registros de trabajos y los datos de medición.
AWS Secrets Manager	Almacena y administra las credenciales a las que puede acceder Amazon FSx para Lustre.
Amazon FSx para Lustre	Almacena las configuraciones y el estado de tiempo de ejecución de Slurm.
Amazon VPC	Proporciona un entorno de red aislado en el que se implementan el HyperPod clúster y sus recursos.
Amazon SNS	Envía notificaciones a los administradores cuando hay cambios de estado (el controlador de Slurm está `ON` o `OFF`) relacionados con el nodo de controlador principal.

El HyperPod clúster en sí está formado por nodos controladores (principales y de respaldo) y nodos de cómputo. Los nodos controladores ejecutan los componentes del controlador (SlurmCtld) y de la base de datos (SlurmDBD) de Slurm, que administran y supervisan la carga de trabajo en todos los nodos de procesamiento.

Los nodos de controlador acceden a las configuraciones de Slurm y al estado de tiempo de ejecución almacenados en el sistema de archivos de Amazon FSx para Lustre. Los datos contables de Slurm se almacenan en la base de datos Amazon RDS for MariaDB. AWS Secrets Manager proporciona un acceso seguro a las credenciales de la base de datos para los nodos del controlador.

Si se produce un cambio de estado (el controlador de Slurm está ON o OFF) en los nodos de controlador de Slurm, Amazon SNS envía notificaciones al administrador para que tome medidas adicionales.

Esta arquitectura de varios nodos de controlador elimina el único punto de error de un único nodo de controlador (principal), permite una recuperación rápida y automática de la conmutación por error y le otorga control sobre la base de datos de contabilidad y las configuraciones de Slurm.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Desarrollo de scripts de ciclo de vida de forma interactiva

Configuración de varios nodos de controlador