Système de surveillance de la santé - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Système de surveillance de la santé

SageMaker HyperPod le système de surveillance de la santé comprend deux composants

  1. Les agents de surveillance installés sur vos nœuds, notamment le Health Monitoring Agent (HMA) qui sert de moniteur de santé sur l'hôte et un ensemble de moniteurs de out-of-node santé.

  2. Système de restauration des nœuds géré par SageMaker HyperPod. Le système de surveillance de l'état de santé surveillera en permanence l'état de santé du nœud via des agents de surveillance, puis prendra des mesures automatiquement en cas de détection d'un défaut à l'aide du système de restauration des nœuds.

Cette image montre comment le système de surveillance de la santé s'est intégré à HyperPod Cluster.

Contrôles de santé effectués par l'agent de SageMaker HyperPod surveillance de la santé

L'agent de SageMaker HyperPod surveillance de la santé vérifie les points suivants.

NVIDIA GPUs

  • Notifications de violation des politiques DCGM

  • Erreurs dans la sortie nvidia-smi

  • Diverses erreurs dans les journaux générés par la plateforme Amazon Elastic Compute Cloud (EC2)

  • Validation du nombre de GPU : s'il existe un décalage entre le nombre attendu de processeurs GPUs dans un type d'instance particulier (par exemple : 8 GPUs dans le type d'instance ml.p5.48xlarge) et le nombre renvoyé par, HMA redémarre le nœud nvidia-smi

AWSTrainium

Les vérifications ci-dessus sont passives, les vérifications de santé des antécédents HyperPod s'exécutent en permanence sur vos nœuds. Outre ces contrôles, effectue HyperPod également des contrôles de santé approfondis (ou actifs) lors de la création et de la mise à jour des HyperPod clusters. En savoir plus sur les bilans de santé approfondis.

Détection de défauts

Lorsqu'il SageMaker HyperPod détecte un défaut, il met en œuvre une réponse en quatre parties :

  1. Étiquettes de nœuds

    1. État de santé : sagemaker.amazonaws.com/node-health-status

    2. Type de défaut : sagemaker.amazonaws.com/fault-types étiquette pour une catégorisation de haut niveau

    3. Motif du défaut : sagemaker.amazonaws.com/fault-reasons étiquette contenant des informations détaillées sur le défaut

  2. Nœud Taint

    1. sagemaker.amazonaws.com/node-health-status=Unschedulable:NoSchedule

  3. Annotation des nœuds

    1. Détails du défaut : sagemaker.amazonaws.com/fault-details

    2. Enregistre jusqu'à 20 défauts avec horodatage survenus sur le nœud

  4. Conditions du nœud (condition du nœud Kubernetes)

    1. Reflète l'état de santé actuel dans l'état des nœuds :

      • Type : identique au type de défaut

      • État : True

      • Raison : Identique à la raison de l'erreur

      • LastTransitionTime: heure de survenue de la panne

Cette image illustre le fonctionnement du système de surveillance de l'état de santé en cas de détection d'un défaut.

Journaux générés par l'agent de SageMaker HyperPod surveillance de l'état

L'agent SageMaker HyperPod de surveillance de l'état est une fonctionnalité out-of-the-box de vérification de l'état qui s'exécute en permanence sur tous les HyperPod clusters. L'agent de surveillance de l'état publie les événements de santé détectés sur les instances GPU ou Trn dans CloudWatch le groupe /aws/sagemaker/Clusters/ de journaux du cluster.

Les journaux de détection de l'agent de surveillance de l' HyperPod état sont créés sous forme de flux de journaux distincts nommés SagemakerHealthMonitoringAgent pour chaque nœud. Vous pouvez interroger les journaux de détection à l'aide des informations des CloudWatch journaux comme suit.

fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/

Cela devrait retourner une sortie semblable à ce qui suit.

2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}