Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Système de surveillance de la santé
SageMaker HyperPod le système de surveillance de la santé comprend deux composants
-
Les agents de surveillance installés sur vos nœuds, notamment le Health Monitoring Agent (HMA) qui sert de moniteur de santé sur l'hôte et un ensemble de moniteurs de out-of-node santé.
-
Système de restauration des nœuds géré par SageMaker HyperPod. Le système de surveillance de l'état de santé surveillera en permanence l'état de santé du nœud via des agents de surveillance, puis prendra des mesures automatiquement en cas de détection d'un défaut à l'aide du système de restauration des nœuds.
Contrôles de santé effectués par l'agent de SageMaker HyperPod surveillance de la santé
L'agent de SageMaker HyperPod surveillance de la santé vérifie les points suivants.
NVIDIA GPUs
-
Erreurs dans la sortie
nvidia-smi -
Diverses erreurs dans les journaux générés par la plateforme Amazon Elastic Compute Cloud (EC2)
-
Validation du nombre de GPU : s'il existe un décalage entre le nombre attendu de processeurs GPUs dans un type d'instance particulier (par exemple : 8 GPUs dans le type d'instance ml.p5.48xlarge) et le nombre renvoyé par, HMA redémarre le nœud
nvidia-smi
AWSTrainium
-
Erreurs dans la sortie du moniteur AWS Neuron
-
Sorties générées par le détecteur de problèmes de nœuds neuronaux (pour plus d'informations sur le détecteur de problèmes de nœuds AWS neuronaux, consultez la section Détection et restauration des problèmes de nœuds pour les nœuds AWS neuronaux au sein de clusters Amazon EKS
.) -
Diverses erreurs dans les journaux générés par la EC2 plateforme Amazon
-
Validation du nombre de dispositifs neuronaux : s'il existe un décalage entre le nombre réel de dispositifs neuronaux dans un type d'instance particulier et le nombre renvoyé par
neuron-ls, HMA redémarre le nœud
Les vérifications ci-dessus sont passives, les vérifications de santé des antécédents HyperPod s'exécutent en permanence sur vos nœuds. Outre ces contrôles, effectue HyperPod également des contrôles de santé approfondis (ou actifs) lors de la création et de la mise à jour des HyperPod clusters. En savoir plus sur les bilans de santé approfondis.
Détection de défauts
Lorsqu'il SageMaker HyperPod détecte un défaut, il met en œuvre une réponse en quatre parties :
-
Étiquettes de nœuds
-
État de santé :
sagemaker.amazonaws.com/node-health-status -
Type de défaut :
sagemaker.amazonaws.com/fault-typesétiquette pour une catégorisation de haut niveau -
Motif du défaut :
sagemaker.amazonaws.com/fault-reasonsétiquette contenant des informations détaillées sur le défaut
-
-
Nœud Taint
-
sagemaker.amazonaws.com/node-health-status=Unschedulable:NoSchedule
-
-
Annotation des nœuds
-
Détails du défaut :
sagemaker.amazonaws.com/fault-details -
Enregistre jusqu'à 20 défauts avec horodatage survenus sur le nœud
-
-
Conditions du nœud (condition du nœud Kubernetes
) -
Reflète l'état de santé actuel dans l'état des nœuds :
-
Type : identique au type de défaut
-
État :
True -
Raison : Identique à la raison de l'erreur
-
LastTransitionTime: heure de survenue de la panne
-
-
Journaux générés par l'agent de SageMaker HyperPod surveillance de l'état
L'agent SageMaker HyperPod de surveillance de l'état est une fonctionnalité out-of-the-box de vérification de l'état qui s'exécute en permanence sur tous les HyperPod clusters. L'agent de surveillance de l'état publie les événements de santé détectés sur les instances GPU ou Trn dans CloudWatch le groupe /aws/sagemaker/Clusters/ de journaux du cluster.
Les journaux de détection de l'agent de surveillance de l' HyperPod état sont créés sous forme de flux de journaux distincts nommés SagemakerHealthMonitoringAgent pour chaque nœud. Vous pouvez interroger les journaux de détection à l'aide des informations des CloudWatch journaux comme suit.
fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/
Cela devrait retourner une sortie semblable à ce qui suit.
2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}