Controles de salud realizados por el agente de SageMaker HyperPod monitoreo de salud Detección de fallas Registros generados por el agente de SageMaker HyperPod monitorización del estado

Sistema de Monitoreo de Salud

SageMaker HyperPod El sistema de monitoreo de la salud incluye dos componentes

Agentes de monitoreo instalados en sus nodos, que incluyen el Health Monitoring Agent (HMA) que actúa como monitor de estado en el host y un conjunto de monitores de estado fuera del nodo.
Sistema de recuperación de nodos gestionado por. SageMaker HyperPod El sistema de monitoreo del estado monitoreará el estado del nodo de forma continua a través de agentes de monitoreo y, luego, tomará medidas automáticamente cuando se detecte una falla utilizando el sistema de recuperación de nodos.

Esta imagen ilustra cómo el sistema de monitoreo del estado se integró con HyperPod Cluster.

Controles de salud realizados por el agente de SageMaker HyperPod monitoreo de salud

El agente SageMaker HyperPod de control de la salud comprueba lo siguiente.

GPU de NVIDIA

Notificaciones de infracción de la política de DCGM
Errores en el resultado de nvidia-smi
Varios errores en los registros generados por la plataforma Amazon Elastic Compute Cloud (EC2)
Validación del recuento de GPU: si no coincide el número esperado de GPU en un tipo de instancia concreto (por ejemplo, 8 GPU en el tipo de instancia ml.p5.48xlarge) y el recuento devuelto por, HMA reinicia el nodo nvidia-smi

AWS Trainium

Errores en el resultado del monitor AWS Neuron
Salidas generadas por el detector de problemas de nodos neuronales (para obtener más información sobre el detector de problemas de nodos AWS neuronales, consulte Detección y recuperación de problemas de nodos AWS neuronales en clústeres de Amazon EKS).
Varios errores en los registros generados por la plataforma Amazon EC2
Validación del recuento de dispositivos neuronales: si hay una discrepancia entre el número real de dispositivos neuronales en un tipo de instancia concreto y el recuento devuelto porneuron-ls, HMA reinicia el nodo

Las comprobaciones anteriores son pasivas y las comprobaciones de estado de los nodos se realizan de forma continua en los HyperPod nodos. Además de estas comprobaciones, HyperPod también realiza comprobaciones de estado exhaustivas (o activas) durante la creación y actualización de HyperPod los clústeres. Más información sobre los controles de estado profundos.

Detección de fallas

Cuando SageMaker HyperPod detecta una falla, implementa una respuesta de cuatro partes:

Etiquetas de nodos
1. Estado de Salud: sagemaker.amazonaws.com/node-health-status
2. Tipo de fallo: sagemaker.amazonaws.com/fault-types etiqueta para una categorización de alto nivel
3. Motivo del error: sagemaker.amazonaws.com/fault-reasons etiqueta para obtener información detallada sobre el error
Contaminación del nodo
1. sagemaker.amazonaws.com/node-health-status=Unschedulable:NoSchedule
Anotación de nodo
1. Detalles de la falla: sagemaker.amazonaws.com/fault-details
2. Registra hasta 20 fallos con marcas de tiempo que se produjeron en el nodo
Condiciones del nodo (condición del nodo de Kubernetes)
1. Refleja el estado de salud actual en las condiciones del nodo:
  - Tipo: igual que el tipo de falla
  - Estado: True
  - Motivo: Igual que el motivo de la culpa
  - LastTransitionTime: Tiempo de aparición de la falla

Esta imagen ilustra cómo funciona el sistema de monitorización del estado cuando se detecta una avería.

Registros generados por el agente de SageMaker HyperPod monitorización del estado

El agente SageMaker HyperPod de supervisión del estado es una función de comprobación de estado lista para usar y se ejecuta de forma continua en todos los clústeres. HyperPod El agente de supervisión del estado publica los eventos de estado detectados en las instancias GPU o Trn en el grupo de registros del CloudWatch clúster. /aws/sagemaker/Clusters/

Los registros de detección del agente de supervisión del HyperPod estado se crean como flujos de registro independientes con el nombre SagemakerHealthMonitoringAgent de cada nodo. Puede consultar los registros de detección utilizando CloudWatch la información de los registros de la siguiente manera.


fields @timestamp, @message
| filter @message like /HealthMonitoringAgentDetectionEvent/

Este proceso devuelve un resultado similar al siguiente.


2024-08-21T11:35:35.532-07:00
    {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}
2024-08-21T11:35:35.532-07:00
    {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Resiliencia de clústeres

Comprobaciones de estado básicas