SageMaker HyperPod support de nœuds à plusieurs têtes - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SageMaker HyperPod support de nœuds à plusieurs têtes

Vous pouvez créer plusieurs nœuds de contrôleur (principaux) dans un seul cluster SageMaker HyperPod Slurm, l'un servant de nœud de contrôleur principal et les autres de nœuds de contrôleur de secours. Le nœud de contrôleur principal est chargé de contrôler les nœuds de calcul (composants master) et de gérer les opérations Slurm. Les nœuds de contrôleur de secours surveillent en permanence le nœud de contrôleur principal. Si le nœud de contrôleur principal tombe en panne ou ne répond plus, l’un des nœuds de contrôleur de secours prend automatiquement le relais en tant que nouveau nœud de contrôleur principal.

La configuration de plusieurs nœuds de contrôleur dans les clusters SageMaker HyperPod Slurm offre plusieurs avantages clés. Elle élimine le risque de défaillance d’un nœud de contrôleur individuel en fournissant des nœuds principaux de contrôleur, elle permet le basculement automatique vers les nœuds de contrôleur de secours et accélère la récupération et elle vous permet de gérer vos propres bases de données comptables et la configuration de Slurm de manière indépendante.

Concepts clés

Ce qui suit fournit des détails sur les concepts liés à la prise en charge de SageMaker HyperPod plusieurs nœuds de contrôleur (tête) pour les clusters Slurm.

Nœud de contrôleur

Un nœud de contrôleur est une EC2 instance Amazon au sein d'un cluster qui exécute des services Slurm essentiels pour gérer et coordonner les opérations du cluster. Plus précisément, il héberge le démon de contrôleur Slurm (slurmctld) et le démon de base de données Slurm (slurmdbd). Un nœud de contrôleur est également appelé nœud principal.

Nœud de contrôleur principal

Un nœud de contrôleur principal est le nœud de contrôleur actif et actuellement en charge du contrôle dans un cluster Slurm. Il est identifié par Slurm comme étant le nœud de contrôleur principal responsable de la gestion du cluster. Le nœud de contrôleur principal reçoit et exécute les commandes des utilisateurs pour contrôler et allouer des ressources sur les nœuds de calcul afin d’exécuter des tâches.

Nœud de contrôleur de secours

Un nœud de contrôleur de secours est un nœud de contrôleur inactif et en veille dans un cluster Slurm. Il est identifié par Slurm comme étant un nœud de contrôleur de secours qui ne gère pas actuellement le cluster. Le nœud de contrôleur de secours exécute le démon de contrôleur Slurm (slurmctld) en mode veille. Toutes les commandes de contrôleur exécutées sur les nœuds de contrôleur de secours seront propagées au nœud de contrôleur principal pour exécution. Son objectif principal est de surveiller en permanence le nœud de contrôleur principal et d’assumer ses responsabilités si le nœud de contrôleur principal tombe en panne ou cesse de répondre.

Nœud de calcul

Un nœud de calcul est une EC2 instance Amazon au sein d'un cluster qui héberge le démon Slurm Worker (slurmd). La fonction principale du nœud de calcul est d’exécuter les tâches qui luis sont affectées par le démon de contrôleur Slurm (slurmctld) qui s’exécute sur le nœud de contrôleur principal. Lorsqu’une tâche est planifiée, le nœud de calcul reçoit des instructions du démon de contrôleur Slurm (slurmctld) pour effectuer les tâches et les calculs nécessaires à cette tâche au sein du nœud lui-même. Un nœud de calcul est également appelé composant master.

Comment ça marche

Le schéma suivant illustre la façon dont les différents AWS services fonctionnent ensemble pour prendre en charge l'architecture à plusieurs nœuds de contrôleur (têtes) pour les clusters SageMaker HyperPod Slurm.

SageMaker HyperPod schéma d'architecture des nœuds à plusieurs têtes

Les AWS services qui fonctionnent ensemble pour prendre en charge l'architecture à SageMaker HyperPod plusieurs nœuds de contrôleur (têtes) sont les suivants.

AWSdes services qui fonctionnent ensemble pour prendre en charge l'architecture à SageMaker HyperPod plusieurs nœuds de contrôleur
Service Description
JE SUIS () Gestion des identités et des accès AWS Définit deux rôles IAM pour contrôler les autorisations d’accès : un rôle pour le groupe d’instances de nœuds de calcul et l’autre pour le groupe d’instances de nœuds de contrôleur.
Amazon RDS for MariaDB Stocke les données comptables de Slurm, qui contiennent les enregistrements de tâches et les données de mesure.
AWS Secrets Manager Stocke et gère les informations d'identification auxquelles Amazon FSx pour Lustre peut accéder.
Amazon FSx pour Lustre Stocke les configurations et l’état de l’environnement d’exécution de Slurm.
Amazon VPC Fournit un environnement réseau isolé dans lequel le HyperPod cluster et ses ressources sont déployés.
Amazon SNS Envoie des notifications aux administrateurs en cas de changement de statut (le contrôleur Slurm est ON ou OFF) lié au nœud de contrôleur principal.

Le HyperPod cluster lui-même se compose de nœuds de contrôleur (principaux et de secours) et de nœuds de calcul. Les nœuds du contrôleur exécutent les composants du contrôleur Slurm (SlurmCtld) et de la base de données (SlurmDBd), qui gèrent et surveillent la charge de travail sur les nœuds de calcul.

Les nœuds du contrôleur accèdent aux configurations et à l'état d'exécution de Slurm stockés dans le système de fichiers Amazon FSx for Lustre. Les données comptables de Slurm sont stockées dans la base de données Amazon RDS for MariaDB. AWS Secrets Managerfournit un accès sécurisé aux informations d'identification de base de données pour les nœuds du contrôleur.

En cas de changement de statut (le contrôleur Slurm est ON ou OFF) dans les nœuds de contrôleur Slurm, Amazon SNS envoie des notifications à l’administrateur pour qu’il prenne les mesures nécessaires.

Cette architecture à plusieurs nœuds de contrôleur élimine le point de défaillance unique d’un nœud de contrôleur (principal) individuel, permet une récupération avec basculement rapide et automatique et vous permet de contrôler la base de données comptable et les configurations de Slurm.