Étiquettes Kubernetes liées à la résilience par SageMaker HyperPod - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Étiquettes Kubernetes liées à la résilience par SageMaker HyperPod

Les étiquettes sont des paires clé-valeur associées aux objets Kubernetes. SageMaker HyperPod introduit les étiquettes suivantes pour les bilans de santé qu'il fournit.

Étiquettes de statut d’intégrité des nœuds

Les étiquettes node-health-status représentent le statut de l’intégrité des nœuds et doivent être utilisées dans le cadre du filtre de sélection des nœuds dans les nœuds sains.

Étiquette Description
sagemaker.amazonaws.com/node-health-status: Schedulable Le nœud a passé les vérifications de surveillance de l’état de base et il est disponible pour l’exécution des charges de travail. Ce bilan de santé est identique aux fonctionnalités de SageMaker HyperPod résilience actuellement disponibles pour les clusters Slurm.
sagemaker.amazonaws.com/node-health-status: Unschedulable Le nœud fait l’objet de vérifications de surveillance approfondie de l’état et il n’est pas disponible pour exécuter les charges de travail.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement Le nœud a échoué aux vérifications de surveillance approfondie de l’état ou aux vérifications de l’agent de surveillance de l’état et il a besoin d’être remplacé. Si la restauration automatique des nœuds est activée, le nœud sera automatiquement remplacé par SageMaker HyperPod.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot Le nœud a échoué aux vérifications de surveillance approfondie de l’état ou aux vérifications de l’agent de surveillance de l’état et il a besoin d’être redémarré. Si la restauration automatique du nœud est activée, le nœud sera automatiquement redémarré par. SageMaker HyperPod

Étiquettes de surveillance approfondie de l’état

Les étiquettes deep-health-check-status représentent la progression de la surveillance approfondie de l’état sur un nœud spécifique. Utile pour les utilisateurs Kubernetes qui souhaitent filtrer rapidement la progression des vérifications de surveillance approfondie de l’état.

Étiquette Description
sagemaker.amazonaws.com/deep-health-check-status: InProgress Le nœud fait l’objet de vérifications de surveillance approfondie de l’état et il n’est pas disponible pour exécuter les charges de travail.
sagemaker.amazonaws.com/deep-health-check-status: Passed Le nœud a effectué avec succès les vérifications de surveillance approfondie de l’état et les vérifications des agents de surveillance de l’état, et il est disponible pour exécuter des charges de travail.
sagemaker.amazonaws.com/deep-health-check-status: Failed Le nœud a échoué aux vérifications de surveillance approfondie de l’état ou aux vérifications de l’agent de surveillance de l’état et il a besoin d’être redémarré ou remplacé. Si la restauration automatique du nœud est activée, le nœud sera automatiquement redémarré ou remplacé par. SageMaker HyperPod

Étiquettes relatives au type et à la raison de la défaillance

Ce qui suit décrit les fault-reason étiquettes fault-type et.

  • Les étiquettes fault-type représentent des catégories de défaillances de haut niveau lorsque les vérifications de surveillance de l’état échouent. Elles sont renseignées pour les défaillances identifiées à la fois lors des vérifications de surveillance approfondie de l’état et des agents de surveillance de l’état.

  • Les étiquettes fault-reason représentent la raison détaillée de la défaillance associée à un fault-type.

Comment les SageMaker HyperPod étiquettes

Les rubriques suivantes traitent de la manière dont l’étiquetage est effectué en fonction des cas.

Lorsqu'un nœud est ajouté à un SageMaker HyperPod cluster avec la configuration de vérification approfondie de l'état désactivée

Lorsqu'un nouveau nœud est ajouté à un cluster, et si le contrôle de santé approfondi n'est pas activé pour le groupe d'instances, SageMaker HyperPod exécute les mêmes contrôles de santé que ceux actuellement disponibles SageMaker HyperPod pour les clusters Slurm.

Si la surveillance de l’état réussit, les nœuds sont marqués avec l’étiquette suivante.

sagemaker.amazonaws.com/node-health-status: Schedulable

Si la surveillance de l’état n’aboutit pas, les nœuds sont résiliés et remplacés. Ce comportement est identique au fonctionnement du bilan de SageMaker HyperPod santé pour les clusters Slurm.

Lorsqu'un nœud est ajouté à un SageMaker HyperPod cluster avec la configuration de vérification approfondie de l'état activée

Lorsqu'un nouveau nœud est ajouté à un SageMaker HyperPod cluster et si le test de santé approfondi est activé pour le groupe d'instances, HyperPod commencez par souiller le nœud et commencez le check/stress test de santé approfondi d'environ 2 heures sur le nœud. Il existe 3 sorties possibles des étiquettes des nœuds après la surveillance approfondie de l’état.

  1. Quand le test de surveillance approfondie de l’état réussit

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. Quand le test de surveillance approfondie de l’état échoue et que l’instance doit être remplacée

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. Quand le test de surveillance approfondie de l’état échoue et que l’instance doit être redémarrée pour réexécuter la surveillance approfondie de l’état

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

Si une instance échoue au test de surveillance approfondie de l’état, elle sera toujours remplacée. Si le test de surveillance approfondie de l’état réussit, le rejet du nœud sera supprimé.

En cas de panne de calcul sur les nœuds

L'agent SageMaker HyperPod de surveillance de l'état de santé surveille également en permanence l'état de santé de chaque nœud. Lorsqu’il détecte une défaillance (telle qu’une défaillance GPU ou un blocage du pilote), l’agent marque le nœud avec l’une des étiquettes suivantes.

  1. Lorsque le nœud est défectueux et doit être remplacé

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. Lorsque le nœud est défectueux et doit être redémarré

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

L’agent de surveillance de l’état rejette également le nœud lorsqu’il détecte des problèmes d’intégrité du nœud.