Agente de monitorización de la salud - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Agente de monitorización de la salud

En esta sección se describe el conjunto de comprobaciones de estado que se SageMaker HyperPod utilizan para supervisar periódicamente el estado de las instancias del clúster para detectar problemas con dispositivos como los aceleradores (núcleos de GPU y Trainium) y las redes (EFA). SageMaker HyperPod el agente de monitorización del estado (HMA) supervisa de forma continua el estado de cada instancia basada en GPU o en Trainium. Cuando detecta algún error en una instancia o en la GPU, el agente marca la instancia como en mal estado.

SageMaker HyperPod HMA realiza las mismas comprobaciones de estado para los orquestadores EKS y Slurm. Para obtener más información sobre HMA, consulte. Sistema de Monitoreo de Salud