Quarantena, sostituzione o riavvio manuale di un nodo - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Quarantena, sostituzione o riavvio manuale di un nodo

Scopri come mettere in quarantena, sostituire e riavviare manualmente un nodo difettoso in SageMaker HyperPod cluster orchestrati con Amazon EKS.

Per mettere in quarantena un nodo e forzare l’eliminazione di un pod di addestramento

kubectl cordon <node-name>

Dopo la quarantena, forza l’espulsione del pod. Questa operazione è utile se un pod è bloccato in stato di terminazione da più di 30 minuti o se kubectl describe pod indica che il nodo non è pronto in Eventi

kubectl delete pods <pod-name> --grace-period=0 --force

SageMaker HyperPod offre due metodi per il ripristino manuale dei nodi. L'approccio preferito consiste nell'utilizzare SageMaker HyperPod Reboot and Replace APIs, che fornisce un processo di ripristino più rapido e trasparente che funziona con tutti gli orchestratori. In alternativa, puoi usare i comandi kubectl per etichettare i nodi per le operazioni di riavvio e sostituzione. Entrambi i metodi attivano gli stessi processi di ripristino. SageMaker HyperPod

Per riavviare un nodo utilizzando l'API Reboot

Per riavviare un nodo puoi usare l'API. BatchRebootClusterNodes

Ecco un esempio di esecuzione dell'operazione di riavvio su due istanze di un cluster utilizzando: AWS Command Line Interface

aws sagemaker-dev batch-reboot-cluster-nodes \ --cluster-name arn:aws:sagemaker:ap-northeast-1:123456789:cluster/test-cluster \ --node-ids i-abc123 i-def456

Per sostituire un nodo utilizzando l'API Replace

Per sostituire un nodo puoi usare l' BatchReplaceClusterNodes API come segue

Ecco un esempio di esecuzione dell'operazione di sostituzione su due istanze di un cluster utilizzando: AWS Command Line Interface

aws sagemaker-dev batch-replace-cluster-nodes \ --cluster-name arn:aws:sagemaker:ap-northeast-1:123456789:cluster/test-cluster \ --node-ids i-abc123 i-def456

Per sostituire un nodo usando kubectl

Etichetta il nodo con cui sostituirlosagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement, che attiva il. SageMaker HyperPod Ripristino automatico del nodo Tieni presente che devi anche attivare il ripristino automatico dei nodi durante la creazione o l’aggiornamento del cluster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

Per riavviare un nodo usando kubectl

Etichetta il nodo con sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot cui riavviare, che attiva il. SageMaker HyperPod Ripristino automatico del nodo Tieni presente che devi anche attivare il ripristino automatico dei nodi durante la creazione o l’aggiornamento del cluster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

Dopo aver applicato UnschedulablePendingReboot le etichette UnschedulablePendingReplacement o, dovresti essere in grado di vedere che il nodo viene terminato o riavviato in pochi minuti.