SageMaker HyperPod soporte para nodos de múltiples cabezales - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker HyperPod soporte para nodos de múltiples cabezales

Puede crear varios nodos controladores (principales) en un único clúster de SageMaker HyperPod Slurm, uno de ellos como nodo controlador principal y los demás como nodos controladores de respaldo. El nodo de controlador principal se encarga de controlar los nodos (de trabajo) de computación y de gestionar las operaciones de Slurm. Los nodos de controlador de respaldo supervisan constantemente el nodo de controlador principal. Si el nodo de controlador principal falla o deja de responder, uno de los nodos de controlador de respaldo pasará automáticamente a ser el nuevo nodo de controlador principal.

La configuración de varios nodos controladores en los clústeres de SageMaker HyperPod Slurm ofrece varias ventajas clave. Elimina el riesgo de que se produzca un fallo en uno de los nodos de controlador al proporcionar nodos principales de controlador, admite la conmutación automática por error a los nodos de controlador de respaldo con una recuperación más rápida y le permite administrar sus propias bases de datos de contabilidad y la configuración de Slurm de forma independiente.

Conceptos clave

A continuación, se proporcionan detalles sobre los conceptos relacionados con la compatibilidad con SageMaker HyperPod varios nodos controladores (principales) para los clústeres de Slurm.

Nodo de controlador

Un nodo controlador es una EC2 instancia de Amazon dentro de un clúster que ejecuta los servicios esenciales de Slurm para gestionar y coordinar las operaciones del clúster. En concreto, aloja el Slurm controller daemon (slurmctld) y el Slurm database daemon (slurmdbd). A un nodo de controlador también se le denomina nodo principal.

Nodo de controlador principal

Un nodo de controlador principal es el nodo de controlador activo y que controla en ese momento en un clúster de Slurm. Slurm lo identifica como el nodo de controlador principal responsable de administrar el clúster. El nodo de controlador principal recibe y ejecuta los comandos de los usuarios para controlar y asignar recursos en los nodos de computación para ejecutar los trabajos.

Nodo de controlador de respaldo

Un nodo de controlador de respaldo es un nodo de controlador inactivo y en espera en un clúster de Slurm. Slurm lo identifica como un nodo de controlador de respaldo que en esos momentos no administra el clúster. El nodo de controlador de respaldo ejecuta el Slurm controller daemon (slurmctld) en modo de espera. Todos los comandos de controlador que se ejecutan en los nodos de controlador de respaldo se propagarán al nodo de controlador principal para su ejecución. Su objetivo principal es supervisar continuamente el nodo de controlador principal y asumir sus responsabilidades en caso de que el nodo de controlador principal falle o deje de responder.

Nodo de computación

Un nodo de cómputo es una EC2 instancia de Amazon dentro de un clúster que aloja el daemon trabajador de Slurm (slurmd). La función principal del nodo de computación es ejecutar los trabajos asignados por el Slurm controller daemon (slurmctld) que se ejecuta en el nodo de controlador principal. Cuando se programa un trabajo, el nodo de computación recibe instrucciones del Slurm controller daemon (slurmctld) para llevar a cabo las tareas y los cálculos necesarios para ese trabajo dentro del propio nodo. Al nodo de computación también se le denomina nodo de trabajo.

Funcionamiento

El siguiente diagrama ilustra cómo funcionan juntos AWS los distintos servicios para dar soporte a la arquitectura de múltiples nodos controladores (principales) de los clústeres de Slurm. SageMaker HyperPod

SageMaker HyperPod diagrama de arquitectura de nodos de múltiples cabezales

Los AWS servicios que funcionan juntos para admitir la arquitectura de nodos de SageMaker HyperPod varios controladores (principales) incluyen los siguientes.

AWS servicios que funcionan en conjunto para dar soporte a la arquitectura de SageMaker HyperPod múltiples nodos controladores
Servicio Description (Descripción)
IAM (AWS Identity and Access Management) Define dos roles de IAM para controlar los permisos de acceso: un rol para el grupo de instancias del nodo de computación y otro para el grupo de instancias del nodo de controlador.
Amazon RDS para MariaDB Almacena los datos contables de Slurm, que contienen los registros de trabajos y los datos de medición.
AWS Secrets Manager Almacena y administra las credenciales a las que puede acceder Amazon FSx for Lustre.
Amazon FSx para Lustre Almacena las configuraciones y el estado de tiempo de ejecución de Slurm.
Amazon VPC Proporciona un entorno de red aislado en el que se despliegan el HyperPod clúster y sus recursos.
Amazon SNS Envía notificaciones a los administradores cuando hay cambios de estado (el controlador de Slurm está ON o OFF) relacionados con el nodo de controlador principal.

El HyperPod clúster en sí está formado por nodos controladores (principales y de respaldo) y nodos de cómputo. Los nodos controladores ejecutan los componentes del controlador (SlurmCtld) y de la base de datos (Slurm) de SlurmDBd, que administran y supervisan la carga de trabajo en todos los nodos de procesamiento.

Los nodos del controlador acceden a las configuraciones de Slurm y al estado de ejecución almacenados en el sistema de archivos Amazon FSx for Lustre. Los datos contables de Slurm se almacenan en la base de datos Amazon RDS for MariaDB. AWS Secrets Manager proporciona un acceso seguro a las credenciales de la base de datos para los nodos del controlador.

Si se produce un cambio de estado (el controlador de Slurm está ON o OFF) en los nodos de controlador de Slurm, Amazon SNS envía notificaciones al administrador para que tome medidas adicionales.

Esta arquitectura de varios nodos de controlador elimina el único punto de error de un único nodo de controlador (principal), permite una recuperación rápida y automática de la conmutación por error y le otorga control sobre la base de datos de contabilidad y las configuraciones de Slurm.