Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Quarantena, sostituzione o riavvio manuale di un nodo
Scopri come mettere in quarantena, sostituire e riavviare manualmente un nodo difettoso in SageMaker HyperPod cluster orchestrati con Amazon EKS.
Per mettere in quarantena un nodo e forzare l’eliminazione di un pod di addestramento
kubectl cordon<node-name>
Dopo la quarantena, forza l’espulsione del pod. Questa operazione è utile se un pod è bloccato in stato di terminazione da più di 30 minuti o se kubectl describe pod indica che il nodo non è pronto in Eventi
kubectl delete pods<pod-name>--grace-period=0 --force
SageMaker HyperPod offre due metodi per il ripristino manuale dei nodi. L'approccio preferito consiste nell'utilizzare SageMaker HyperPod Reboot and Replace APIs, che fornisce un processo di ripristino più rapido e trasparente che funziona con tutti gli orchestratori. In alternativa, puoi usare i comandi kubectl per etichettare i nodi per le operazioni di riavvio e sostituzione. Entrambi i metodi attivano gli stessi processi di ripristino. SageMaker HyperPod
Per riavviare un nodo utilizzando l'API Reboot
Per riavviare un nodo puoi usare l'API. BatchRebootClusterNodes
Ecco un esempio di esecuzione dell'operazione di riavvio su due istanze di un cluster utilizzando: AWS Command Line Interface
aws sagemaker-dev batch-reboot-cluster-nodes \ --cluster-name arn:aws:sagemaker:ap-northeast-1:123456789:cluster/test-cluster \ --node-ids i-abc123 i-def456
Per sostituire un nodo utilizzando l'API Replace
Per sostituire un nodo puoi usare l' BatchReplaceClusterNodes API come segue
Ecco un esempio di esecuzione dell'operazione di sostituzione su due istanze di un cluster utilizzando: AWS Command Line Interface
aws sagemaker-dev batch-replace-cluster-nodes \ --cluster-name arn:aws:sagemaker:ap-northeast-1:123456789:cluster/test-cluster \ --node-ids i-abc123 i-def456
Per sostituire un nodo usando kubectl
Etichetta il nodo con cui sostituirlosagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement, che attiva il. SageMaker HyperPod Ripristino automatico del nodo Tieni presente che devi anche attivare il ripristino automatico dei nodi durante la creazione o l’aggiornamento del cluster.
kubectl label nodes<node-name>\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
Per riavviare un nodo usando kubectl
Etichetta il nodo con sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot cui riavviare, che attiva il. SageMaker HyperPod Ripristino automatico del nodo Tieni presente che devi anche attivare il ripristino automatico dei nodi durante la creazione o l’aggiornamento del cluster.
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
Dopo aver applicato UnschedulablePendingReboot le etichette UnschedulablePendingReplacement o, dovresti essere in grado di vedere che il nodo viene terminato o riavviato in pochi minuti.