Sistema de Monitoreo de Salud - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Sistema de Monitoreo de Salud

SageMaker HyperPod El sistema de monitoreo de la salud incluye dos componentes

  1. Agentes de monitoreo instalados en sus nodos, que incluyen el Health Monitoring Agent (HMA) que actúa como monitor de estado en el host y un conjunto de monitores de out-of-node estado.

  2. Sistema de recuperación de nodos gestionado por. SageMaker HyperPod El sistema de monitoreo del estado monitoreará el estado del nodo de forma continua a través de agentes de monitoreo y, luego, tomará medidas automáticamente cuando se detecte una falla utilizando el sistema de recuperación de nodos.

Esta imagen ilustra cómo el sistema de monitoreo del estado se integró con HyperPod Cluster.

Controles de salud realizados por el agente de SageMaker HyperPod monitoreo de salud

El agente SageMaker HyperPod de control de la salud comprueba lo siguiente.

NVIDIA GPUs

  • Notificaciones de infracción de la política de DCGM

  • Errores en el resultado de nvidia-smi

  • Varios errores en los registros generados por la plataforma Amazon Elastic Compute Cloud (EC2)

  • Validación del recuento de GPU: si no coincide el número esperado de un tipo de instancia concreto (por ejemplo: 8 GPUs GPUs en el tipo de instancia ml.p5.48xlarge) y el recuento devuelto por, HMA reinicia el nodo nvidia-smi

AWSTrainium

  • Errores en el resultado del monitor AWS Neuron

  • Salidas generadas por el detector de problemas de nodos neuronales (para obtener más información sobre el detector de problemas de nodos AWS neuronales, consulte Detección y recuperación de problemas de nodos AWS neuronales en clústeres de Amazon EKS).

  • Varios errores en los registros generados por la EC2 plataforma Amazon

  • Validación del recuento de dispositivos neuronales: si hay una discrepancia entre el número real de dispositivos neuronales en un tipo de instancia concreto y el recuento devuelto por élneuron-ls, HMA reinicia el nodo

Las comprobaciones anteriores son pasivas y las comprobaciones de estado de los nodos se realizan de forma continua en los HyperPod nodos. Además de estas comprobaciones, HyperPod también realiza comprobaciones de estado exhaustivas (o activas) durante la creación y actualización de HyperPod los clústeres. Más información sobre los controles de estado profundos.

Detección de fallas

Cuando SageMaker HyperPod detecta una falla, implementa una respuesta de cuatro partes:

  1. Etiquetas de nodos

    1. Estado de Salud: sagemaker.amazonaws.com/node-health-status

    2. Tipo de fallo: sagemaker.amazonaws.com/fault-types etiqueta para una categorización de alto nivel

    3. Motivo del error: sagemaker.amazonaws.com/fault-reasons etiqueta para obtener información detallada sobre el error

  2. Contaminación del nodo

    1. sagemaker.amazonaws.com/node-health-status=Unschedulable:NoSchedule

  3. Anotación de nodo

    1. Detalles del error: sagemaker.amazonaws.com/fault-details

    2. Registra hasta 20 fallos con marcas de tiempo que se produjeron en el nodo

  4. Condiciones del nodo (condición del nodo de Kubernetes)

    1. Refleja el estado de salud actual en las condiciones del nodo:

      • Tipo: igual que el tipo de falla

      • Estado: True

      • Motivo: Igual que el motivo de la culpa

      • LastTransitionTime: Tiempo de aparición de la falla

Esta imagen ilustra cómo funciona el sistema de monitorización del estado cuando se detecta una avería.

Registros generados por el agente de SageMaker HyperPod monitorización del estado

El agente SageMaker HyperPod de monitorización del estado es una función de out-of-the-box comprobación del estado y se ejecuta de forma continua en todos los HyperPod clústeres. El agente de supervisión del estado publica los eventos de estado detectados en las instancias de GPU o Trn en el grupo de registros del clúster. CloudWatch /aws/sagemaker/Clusters/

Los registros de detección del agente de supervisión del HyperPod estado se crean como flujos de registro independientes con el nombre SagemakerHealthMonitoringAgent de cada nodo. Puede consultar los registros de detección utilizando CloudWatch la información de los registros de la siguiente manera.

fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/

Este proceso devuelve un resultado similar al siguiente.

2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}