Etiquetas de Kubernetes relacionadas con la resiliencia de SageMaker HyperPod
Las etiquetas son pares clave-valor que se asocian a los objetos de Kubernetes
Etiquetas de estado de comprobación del nodo
Las etiquetas node-health-status representan el estado del nodo y se deben utilizar como parte del filtro del selector de nodos en los nodos en buen estado.
| Etiqueta | Descripción |
|---|---|
sagemaker.amazonaws.com/node-health-status:
Schedulable |
El nodo ha superado las comprobaciones de estado básicas y está disponible para ejecutar cargas de trabajo. Esta comprobación de estado es la misma que las características de resiliencia de SageMaker HyperPod disponibles actualmente para los clústeres de Slurm. |
sagemaker.amazonaws.com/node-health-status:
Unschedulable |
El nodo está llevando a cabo comprobaciones de estado exhaustivas y no está disponible para ejecutar cargas de trabajo. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReplacement |
El nodo no ha superado las comprobaciones de estado exhaustivas ni las comprobaciones del agente de supervisión del estado y tiene que reemplazarse. Si se ha habilitado la recuperación automática de nodos, SageMaker HyperPod reemplazará automáticamente el nodo. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReboot |
El nodo no ha superado las comprobaciones de estado exhaustivas ni las comprobaciones del agente de supervisión del estado y debe reiniciarse. Si se ha habilitado la recuperación automática de nodos, SageMaker HyperPod reiniciará automáticamente el nodo. |
Etiquetas de comprobaciones de estado exhaustivas
Las etiquetas deep-health-check-status representan el progreso de una comprobación de estado exhaustiva de un nodo específico. Es útil para que los usuarios de Kubernetes puedan filtrar rápidamente el progreso de las comprobaciones de estado exhaustivas generales.
| Etiqueta | Descripción |
|---|---|
sagemaker.amazonaws.com/deep-health-check-status:
InProgress |
El nodo está llevando a cabo comprobaciones de estado exhaustivas y no está disponible para ejecutar cargas de trabajo. |
sagemaker.amazonaws.com/deep-health-check-status:
Passed |
El nodo ha realizado correctamente comprobaciones de estado exhaustivas y comprobaciones de los agentes de supervisión del estado. Además, también está disponible para ejecutar cargas de trabajo. |
sagemaker.amazonaws.com/deep-health-check-status:
Failed |
El nodo no ha superado las comprobaciones de estado exhaustivas ni las comprobaciones del agente de supervisión del estado y debe reiniciarse o reemplazarse. Si se ha habilitado la recuperación automática de nodos, SageMaker HyperPod reiniciará o reemplazará automáticamente el nodo. |
Etiquetas de tipo de error y motivo
A continuación se describen las etiquetas fault-type y fault-reason.
-
Las etiquetas
fault-typerepresentan categorías de errores de alto nivel cuando se produce un error en las comprobaciones de estado. Se completan con los errores detectados durante las comprobaciones de estado exhaustivas y de los agentes de supervisión del estado. -
Las etiquetas
fault-reasonrepresentan el motivo detallado del error asociado a unfault-type.
Cómo etiqueta SageMaker HyperPod
En los siguientes temas se explica cómo se realiza el etiquetado en función de los distintos casos.
Temas
Cuando se añade un nodo a un clúster de SageMaker HyperPod con la configuración de comprobación de estado exhaustiva deshabilitada
Cuando se añade un nodo nuevo al clúster, y si no se ha habilitado la comprobación de estado exhaustiva para el grupo de instancias, SageMaker HyperPod ejecuta las mismas comprobaciones de estado que las comprobaciones de estado de SageMaker HyperPod disponibles actualmente para los clústeres de Slurm.
Si se supera la comprobación de estado, los nodos se marcarán con la siguiente etiqueta.
sagemaker.amazonaws.com/node-health-status: Schedulable
Si no se supera la comprobación de estado, los nodos finalizarán y se reemplazarán. Este comportamiento es el mismo que el modo en que funciona la comprobación de estado de SageMaker de HyperPod para los clústeres de Slurm.
Cuando se añade un nodo a un clúster de SageMaker HyperPod con la configuración de comprobación de estado exhaustiva habilitada
Cuando se añade un nodo nuevo a un clúster de SageMaker HyperPod, y si se ha habilitado la prueba de comprobación de estado exhaustiva para el grupo de instancias, HyperPod primero aplica taints al nodo e inicia la comprobación de estado exhaustiva o prueba de esfuerzo de aproximadamente dos horas en el nodo. Tras la comprobación de estado exhaustiva, hay tres posibles resultados de las etiquetas de los nodos.
-
Cuando se supere la prueba de comprobación de estado exhaustiva
sagemaker.amazonaws.com/node-health-status: Schedulable -
Cuando no se supere la prueba de comprobación de estado exhaustiva, y es necesario reemplazar la instancia
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement -
Cuando no se supere la prueba de comprobación de estado exhaustiva, y es necesario reiniciar la instancia para volver a ejecutar dicha prueba
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
Si una instancia no supera la prueba de comprobación de estado exhaustiva, la instancia siempre se reemplazará. Si las pruebas de comprobación de estado exhaustivas se realizan correctamente, se eliminará la taint del nodo.
Cuando se produzcan errores de computación en los nodos
El agente de supervisión del estado de SageMaker HyperPod también supervisa continuamente el estado de cada nodo. Cuando detecta algún error (como un error en la GPU o un bloqueo del controlador), el agente marca el nodo con una de las siguientes etiquetas.
-
Cuando el nodo está en mal estado y debe reemplazarse
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement -
Cuando el nodo está en mal estado y debe reiniciarse
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
El agente de supervisión del estado también aplica taints al nodo cuando detecta problemas de estado del nodo.