Etiquetas de estado de comprobación del nodo Etiquetas de comprobaciones de estado exhaustivas Etiquetas de tipo de error y motivo Cómo SageMaker HyperPod etiquetar

Resilience-related Kubernetes etiqueta por SageMaker HyperPod

Las etiquetas son pares clave-valor que se adjuntan a los objetos de Kubernetes. SageMaker HyperPod introduce las siguientes etiquetas para las comprobaciones de estado que proporciona.

Etiquetas de estado de comprobación del nodo

Las etiquetas node-health-status representan el estado del nodo y se deben utilizar como parte del filtro del selector de nodos en los nodos en buen estado.

Etiqueta	Description (Descripción)
`sagemaker.amazonaws.com/node-health-status: Schedulable`	El nodo ha superado las comprobaciones de estado básicas y está disponible para ejecutar cargas de trabajo. Esta comprobación de estado es la misma que las funciones de SageMaker HyperPod resiliencia disponibles actualmente para los clústeres de Slurm.
`sagemaker.amazonaws.com/node-health-status: Unschedulable`	El nodo está llevando a cabo comprobaciones de estado exhaustivas y no está disponible para ejecutar cargas de trabajo.
`sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement`	El nodo no ha superado las comprobaciones de estado exhaustivas ni las comprobaciones del agente de supervisión del estado y tiene que reemplazarse. Si la recuperación automática de nodos está habilitada, el nodo se reemplazará automáticamente por. SageMaker HyperPod
`sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot`	El nodo no ha superado las comprobaciones de estado exhaustivas ni las comprobaciones del agente de supervisión del estado y debe reiniciarse. Si la recuperación automática de nodos está habilitada, el nodo se reiniciará automáticamente por. SageMaker HyperPod

Etiquetas de comprobaciones de estado exhaustivas

Las etiquetas deep-health-check-status representan el progreso de una comprobación de estado exhaustiva de un nodo específico. Es útil para que los usuarios de Kubernetes puedan filtrar rápidamente el progreso de las comprobaciones de estado exhaustivas generales.

Etiqueta	Description (Descripción)
`sagemaker.amazonaws.com/deep-health-check-status: InProgress`	El nodo está llevando a cabo comprobaciones de estado exhaustivas y no está disponible para ejecutar cargas de trabajo.
`sagemaker.amazonaws.com/deep-health-check-status: Passed`	El nodo ha realizado correctamente comprobaciones de estado exhaustivas y comprobaciones de los agentes de supervisión del estado. Además, también está disponible para ejecutar cargas de trabajo.
`sagemaker.amazonaws.com/deep-health-check-status: Failed`	El nodo no ha superado las comprobaciones de estado exhaustivas ni las comprobaciones del agente de supervisión del estado y debe reiniciarse o reemplazarse. Si la recuperación automática de nodos está habilitada, el nodo se reiniciará automáticamente o se sustituirá por. SageMaker HyperPod

Etiquetas de tipo de error y motivo

A continuación se describen las etiquetas fault-type y. fault-reason

Las etiquetas fault-type representan categorías de errores de alto nivel cuando se produce un error en las comprobaciones de estado. Se completan con los errores detectados durante las comprobaciones de estado exhaustivas y de los agentes de supervisión del estado.
Las etiquetas fault-reason representan el motivo detallado del error asociado a un fault-type.

Cómo SageMaker HyperPod etiquetar

En los siguientes temas se explica cómo se realiza el etiquetado en función de los distintos casos.

Temas

Cuando se agrega un nodo a un SageMaker HyperPod clúster con la configuración de verificación de estado profunda deshabilitada
Cuando se agrega un nodo a un SageMaker HyperPod clúster con la configuración de verificación de estado profunda habilitada
Cuando se produzcan errores de computación en los nodos

Cuando se agrega un nodo a un SageMaker HyperPod clúster con la configuración de verificación de estado profunda deshabilitada

Cuando se agrega un nodo nuevo a un clúster, y si la comprobación de estado profunda no está habilitada para el grupo de instancias, SageMaker HyperPod ejecuta las mismas comprobaciones de estado que las comprobaciones de SageMaker HyperPod estado disponibles actualmente para los clústeres de Slurm.

Si se supera la comprobación de estado, los nodos se marcarán con la siguiente etiqueta.


sagemaker.amazonaws.com/node-health-status: Schedulable

Si no se supera la comprobación de estado, los nodos finalizarán y se reemplazarán. Este comportamiento es el mismo que el modo en que funciona la comprobación de SageMaker HyperPod estado de los clústeres de Slurm.

Cuando se agrega un nodo a un SageMaker HyperPod clúster con la configuración de verificación de estado profunda habilitada

Cuando se agrega un nodo nuevo a un SageMaker HyperPod clúster, y si la prueba de estado profunda está habilitada para el grupo de instancias, HyperPod primero se mancha el nodo y se inicia la check/stress prueba de estado profunda de aproximadamente 2 horas en el nodo. Tras la comprobación de estado exhaustiva, hay tres posibles resultados de las etiquetas de los nodos.

Cuando se supere la prueba de comprobación de estado exhaustiva
```
sagemaker.amazonaws.com/node-health-status: Schedulable
```
Cuando no se supere la prueba de comprobación de estado exhaustiva, y es necesario reemplazar la instancia
```
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
```
Cuando no se supere la prueba de comprobación de estado exhaustiva, y es necesario reiniciar la instancia para volver a ejecutar dicha prueba
```
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
```

Si una instancia no supera la prueba de comprobación de estado exhaustiva, la instancia siempre se reemplazará. Si las pruebas de comprobación de estado exhaustivas se realizan correctamente, se eliminará la taint del nodo.

Cuando se produzcan errores de computación en los nodos

El agente SageMaker HyperPod de monitorización del estado también supervisa de forma continua el estado de cada nodo. Cuando detecta algún error (como un error en la GPU o un bloqueo del controlador), el agente marca el nodo con una de las siguientes etiquetas.

Cuando el nodo está en mal estado y debe reemplazarse


sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement

Cuando el nodo está en mal estado y debe reiniciarse


sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

El agente de supervisión del estado también aplica taints al nodo cuando detecta problemas de estado del nodo.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Recuperación automática de nodos

Cómo poner en cuarentena, reemplazar o reiniciar manualmente un nodo