Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Étiquettes Kubernetes liées à la résilience par SageMaker HyperPod
Les étiquettes sont des paires clé-valeur associées aux objets Kubernetes
Étiquettes de statut d’intégrité des nœuds
Les étiquettes node-health-status représentent le statut de l’intégrité des nœuds et doivent être utilisées dans le cadre du filtre de sélection des nœuds dans les nœuds sains.
| Étiquette | Description |
|---|---|
sagemaker.amazonaws.com/node-health-status:
Schedulable |
Le nœud a passé les vérifications de surveillance de l’état de base et il est disponible pour l’exécution des charges de travail. Ce bilan de santé est identique aux fonctionnalités de SageMaker HyperPod résilience actuellement disponibles pour les clusters Slurm. |
sagemaker.amazonaws.com/node-health-status:
Unschedulable |
Le nœud fait l’objet de vérifications de surveillance approfondie de l’état et il n’est pas disponible pour exécuter les charges de travail. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReplacement |
Le nœud a échoué aux vérifications de surveillance approfondie de l’état ou aux vérifications de l’agent de surveillance de l’état et il a besoin d’être remplacé. Si la restauration automatique des nœuds est activée, le nœud sera automatiquement remplacé par SageMaker HyperPod. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReboot |
Le nœud a échoué aux vérifications de surveillance approfondie de l’état ou aux vérifications de l’agent de surveillance de l’état et il a besoin d’être redémarré. Si la restauration automatique du nœud est activée, le nœud sera automatiquement redémarré par. SageMaker HyperPod |
Étiquettes de surveillance approfondie de l’état
Les étiquettes deep-health-check-status représentent la progression de la surveillance approfondie de l’état sur un nœud spécifique. Utile pour les utilisateurs Kubernetes qui souhaitent filtrer rapidement la progression des vérifications de surveillance approfondie de l’état.
| Étiquette | Description |
|---|---|
sagemaker.amazonaws.com/deep-health-check-status:
InProgress |
Le nœud fait l’objet de vérifications de surveillance approfondie de l’état et il n’est pas disponible pour exécuter les charges de travail. |
sagemaker.amazonaws.com/deep-health-check-status:
Passed |
Le nœud a effectué avec succès les vérifications de surveillance approfondie de l’état et les vérifications des agents de surveillance de l’état, et il est disponible pour exécuter des charges de travail. |
sagemaker.amazonaws.com/deep-health-check-status:
Failed |
Le nœud a échoué aux vérifications de surveillance approfondie de l’état ou aux vérifications de l’agent de surveillance de l’état et il a besoin d’être redémarré ou remplacé. Si la restauration automatique du nœud est activée, le nœud sera automatiquement redémarré ou remplacé par. SageMaker HyperPod |
Étiquettes relatives au type et à la raison de la défaillance
Ce qui suit décrit les fault-reason étiquettes fault-type et.
-
Les étiquettes
fault-typereprésentent des catégories de défaillances de haut niveau lorsque les vérifications de surveillance de l’état échouent. Elles sont renseignées pour les défaillances identifiées à la fois lors des vérifications de surveillance approfondie de l’état et des agents de surveillance de l’état. -
Les étiquettes
fault-reasonreprésentent la raison détaillée de la défaillance associée à unfault-type.
Comment les SageMaker HyperPod étiquettes
Les rubriques suivantes traitent de la manière dont l’étiquetage est effectué en fonction des cas.
Rubriques
Lorsqu'un nœud est ajouté à un SageMaker HyperPod cluster avec la configuration de vérification approfondie de l'état désactivée
Lorsqu'un nouveau nœud est ajouté à un cluster, et si le contrôle de santé approfondi n'est pas activé pour le groupe d'instances, SageMaker HyperPod exécute les mêmes contrôles de santé que ceux actuellement disponibles SageMaker HyperPod pour les clusters Slurm.
Si la surveillance de l’état réussit, les nœuds sont marqués avec l’étiquette suivante.
sagemaker.amazonaws.com/node-health-status: Schedulable
Si la surveillance de l’état n’aboutit pas, les nœuds sont résiliés et remplacés. Ce comportement est identique au fonctionnement du bilan de SageMaker HyperPod santé pour les clusters Slurm.
Lorsqu'un nœud est ajouté à un SageMaker HyperPod cluster avec la configuration de vérification approfondie de l'état activée
Lorsqu'un nouveau nœud est ajouté à un SageMaker HyperPod cluster et si le test de santé approfondi est activé pour le groupe d'instances, HyperPod commencez par souiller le nœud et commencez le check/stress test de santé approfondi d'environ 2 heures sur le nœud. Il existe 3 sorties possibles des étiquettes des nœuds après la surveillance approfondie de l’état.
-
Quand le test de surveillance approfondie de l’état réussit
sagemaker.amazonaws.com/node-health-status: Schedulable -
Quand le test de surveillance approfondie de l’état échoue et que l’instance doit être remplacée
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement -
Quand le test de surveillance approfondie de l’état échoue et que l’instance doit être redémarrée pour réexécuter la surveillance approfondie de l’état
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
Si une instance échoue au test de surveillance approfondie de l’état, elle sera toujours remplacée. Si le test de surveillance approfondie de l’état réussit, le rejet du nœud sera supprimé.
En cas de panne de calcul sur les nœuds
L'agent SageMaker HyperPod de surveillance de l'état de santé surveille également en permanence l'état de santé de chaque nœud. Lorsqu’il détecte une défaillance (telle qu’une défaillance GPU ou un blocage du pilote), l’agent marque le nœud avec l’une des étiquettes suivantes.
-
Lorsque le nœud est défectueux et doit être remplacé
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement -
Lorsque le nœud est défectueux et doit être redémarré
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
L’agent de surveillance de l’état rejette également le nœud lorsqu’il détecte des problèmes d’intégrité du nœud.