Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Cómo poner en cuarentena, reemplazar o reiniciar manualmente un nodo
Aprenda a poner en cuarentena, reemplazar y reiniciar manualmente un nodo defectuoso en SageMaker HyperPod clústeres organizados con Amazon EKS.
Cómo poner en cuarentena un nodo y forzar la eliminación de un pod de entrenamiento
kubectl cordon<node-name>
Tras la cuarentena, fuerce la expulsión del pod. Esto es útil cuando un pod se queda atascado en la terminación durante más de 30 minutos o kubectl describe pod muestra El nodo no está listo en Eventos.
kubectl delete pods<pod-name>--grace-period=0 --force
SageMaker HyperPod ofrece dos métodos para la recuperación manual de nodos. El enfoque preferido es utilizar el SageMaker HyperPod sistema Reboot and Replace APIs, que proporciona un proceso de recuperación más rápido y transparente que funciona en todos los orquestadores. Como alternativa, puedes usar los comandos kubectl para etiquetar los nodos para las operaciones de reinicio y reemplazo. Ambos métodos activan los mismos SageMaker HyperPod procesos de recuperación.
Para reiniciar un nodo mediante la API de reinicio
Para reiniciar un nodo, puede usar la BatchRebootClusterNodes API.
A continuación, se muestra un ejemplo de cómo ejecutar la operación de reinicio en dos instancias de un clúster medianteAWS Command Line Interface:
aws sagemaker-dev batch-reboot-cluster-nodes \ --cluster-name arn:aws:sagemaker:ap-northeast-1:123456789:cluster/test-cluster \ --node-ids i-abc123 i-def456
Para reemplazar un nodo mediante la API Replace
Para reemplazar un nodo, puedes usar la BatchReplaceClusterNodes API de la siguiente manera
A continuación, se muestra un ejemplo de cómo ejecutar la operación de reemplazo en dos instancias de un clúster medianteAWS Command Line Interface:
aws sagemaker-dev batch-replace-cluster-nodes \ --cluster-name arn:aws:sagemaker:ap-northeast-1:123456789:cluster/test-cluster \ --node-ids i-abc123 i-def456
Para reemplazar un nodo mediante kubectl
Etiquete el nodo por el que desea reemplazarlosagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement, lo que activa el. SageMaker HyperPod Recuperación automática de nodos Tenga en cuenta que también debe activar la recuperación automática de nodos durante la creación o actualización del clúster.
kubectl label nodes<node-name>\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
Para reiniciar un nodo mediante kubectl
Etiquete el nodo con el que se va a reiniciarsagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot, lo que activa el. SageMaker HyperPod Recuperación automática de nodos Tenga en cuenta que también debe activar la recuperación automática de nodos durante la creación o actualización del clúster.
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
Una vez UnschedulablePendingReboot colocadas las etiquetasUnschedulablePendingReplacement, debería poder ver que el nodo finaliza o se reinicia en unos minutos.