Contrôles de santé effectués par l'agent de SageMaker HyperPod surveillance de la santé Détection de défauts Journaux générés par l'agent de SageMaker HyperPod surveillance de l'état

Système de surveillance de la santé

SageMaker HyperPod le système de surveillance de la santé comprend deux composants

Les agents de surveillance installés sur vos nœuds, notamment le Health Monitoring Agent (HMA) qui sert de moniteur de santé sur l'hôte et un ensemble de moniteurs de santé externes au nœud.
Système de restauration des nœuds géré par SageMaker HyperPod. Le système de surveillance de l'état de santé surveillera en permanence l'état de santé du nœud via des agents de surveillance, puis prendra des mesures automatiquement en cas de détection d'un défaut à l'aide du système de restauration des nœuds.

Cette image montre comment le système de surveillance de la santé s'est intégré à HyperPod Cluster.

Contrôles de santé effectués par l'agent de SageMaker HyperPod surveillance de la santé

L'agent de SageMaker HyperPod surveillance de la santé vérifie les points suivants.

GPU NVIDIA

Notifications de violation des politiques DCGM
Erreurs dans la sortie nvidia-smi
Diverses erreurs dans les journaux générés par la plateforme Amazon Elastic Cloud (EC2)
Validation du nombre de GPU : s'il existe un décalage entre le nombre attendu de GPU dans un type d'instance particulier (par exemple : 8 GPU dans le type d'instance ml.p5.48xlarge) et le nombre renvoyé par, HMA redémarre le nœud nvidia-smi

AWS Trainium

Erreurs dans la sortie du moniteur AWS Neuron
Sorties générées par le détecteur de problèmes de nœuds neuronaux (pour plus d'informations sur le détecteur de problèmes de nœuds AWS neuronaux, consultez la section Détection et restauration des problèmes de nœuds pour les nœuds AWS neuronaux au sein de clusters Amazon EKS.)
Diverses erreurs dans les journaux générés par la plateforme Amazon EC2
Validation du nombre de dispositifs neuronaux : s'il existe un décalage entre le nombre réel de dispositifs neuronaux dans un type d'instance particulier et le nombre renvoyé parneuron-ls, HMA redémarre le nœud

Les vérifications ci-dessus sont passives, les vérifications de santé des antécédents HyperPod s'exécutent en permanence sur vos nœuds. Outre ces contrôles, effectue HyperPod également des contrôles de santé approfondis (ou actifs) lors de la création et de la mise à jour des HyperPod clusters. En savoir plus sur les bilans de santé approfondis.

Détection de défauts

Lorsqu'il SageMaker HyperPod détecte un défaut, il met en œuvre une réponse en quatre parties :

Étiquettes de nœuds
1. État de santé : sagemaker.amazonaws.com/node-health-status
2. Type de défaut : sagemaker.amazonaws.com/fault-types étiquette pour une catégorisation de haut niveau
3. Motif du défaut : sagemaker.amazonaws.com/fault-reasons étiquette contenant des informations détaillées sur le défaut
Nœud Taint
1. sagemaker.amazonaws.com/node-health-status=Unschedulable:NoSchedule
Annotation des nœuds
1. Détails du défaut : sagemaker.amazonaws.com/fault-details
2. Enregistre jusqu'à 20 défauts avec horodatage survenus sur le nœud
Conditions du nœud (condition du nœud Kubernetes)
1. Reflète l'état de santé actuel dans l'état des nœuds :
  - Type : identique au type de défaut
  - État : True
  - Raison : Identique à la raison de l'erreur
  - LastTransitionTime: heure de survenue de la panne

Cette image illustre le fonctionnement du système de surveillance de l'état de santé en cas de détection d'un défaut.

Journaux générés par l'agent de SageMaker HyperPod surveillance de l'état

L'agent de SageMaker HyperPod surveillance de l'état est une fonctionnalité de vérification de l'état prête à l'emploi qui s'exécute en permanence sur tous les clusters. HyperPod L'agent de surveillance de l'état publie les événements de santé détectés sur les instances GPU ou Trn dans CloudWatch le groupe /aws/sagemaker/Clusters/ de journaux du cluster.

Les journaux de détection de l'agent de surveillance de l' HyperPod état sont créés sous forme de flux de journaux distincts nommés SagemakerHealthMonitoringAgent pour chaque nœud. Vous pouvez interroger les journaux de détection à l'aide des informations des CloudWatch journaux comme suit.


fields @timestamp, @message
| filter @message like /HealthMonitoringAgentDetectionEvent/

Cela devrait retourner une sortie semblable à ce qui suit.


2024-08-21T11:35:35.532-07:00
    {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}
2024-08-21T11:35:35.532-07:00
    {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Résilience de cluster

Vérifications de surveillance de l’état de base