Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Etichette Kubernetes relative alla resilienza di SageMaker HyperPod
Le etichette sono coppie chiave-valore allegate agli oggetti Kubernetes
Etichette dello stato di integrità dei nodi
Le etichette node-health-status rappresentano lo stato di integrità del nodo e devono essere utilizzate come parte del filtro di selezione dei nodi integri.
| Etichetta | Description |
|---|---|
sagemaker.amazonaws.com/node-health-status:
Schedulable |
Il nodo ha superato i controlli dell’integrità di base ed è disponibile per l’esecuzione di carichi di lavoro. Questo controllo di integrità è lo stesso delle funzionalità di SageMaker HyperPod resilienza attualmente disponibili per i cluster Slurm. |
sagemaker.amazonaws.com/node-health-status:
Unschedulable |
Il nodo sta eseguendo controlli dell’integrità approfonditi e non è disponibile per l’esecuzione di carichi di lavoro. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReplacement |
Il nodo non ha superato i controlli dell’integrità approfonditi o i controlli degli agenti di monitoraggio dell’integrità e deve essere sostituito. Se il ripristino automatico del nodo è abilitato, il nodo verrà automaticamente sostituito da. SageMaker HyperPod |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReboot |
Il nodo non ha superato i controlli dell’integrità approfonditi o i controlli degli agenti di monitoraggio dell’integrità e richiede un riavvio. Se il ripristino automatico del nodo è abilitato, il nodo verrà riavviato automaticamente da. SageMaker HyperPod |
Etichette dei controlli dell’integrità approfonditi
Le etichette deep-health-check-status rappresentano lo stato di avanzamento dei controlli dell’integrità approfonditi su un nodo specifico. Sono utili agli utenti di Kubernetes per filtrare rapidamente in base allo stato di avanzamento complessivo dei controlli dell’integrità approfonditi.
| Etichetta | Description |
|---|---|
sagemaker.amazonaws.com/deep-health-check-status:
InProgress |
Il nodo sta eseguendo controlli dell’integrità approfonditi e non è disponibile per l’esecuzione di carichi di lavoro. |
sagemaker.amazonaws.com/deep-health-check-status:
Passed |
Il nodo ha completato correttamente i controlli dell’integrità approfonditi e i controlli degli agenti di monitoraggio dell’integrità ed è disponibile per l’esecuzione di carichi di lavoro. |
sagemaker.amazonaws.com/deep-health-check-status:
Failed |
Il nodo non ha superato i controlli dell’integrità approfonditi o i controlli degli agenti di monitoraggio dell’integrità e richiede il riavvio o la sostituzione. Se il ripristino automatico del nodo è abilitato, il nodo verrà riavviato o sostituito automaticamente da. SageMaker HyperPod |
Etichette relative al tipo e al motivo del guasto
Di seguito vengono descritte le etichette fault-type efault-reason.
-
Le etichette
fault-typerappresentano categorie generali per i guasti in caso di controlli dell’integrità non riusciti. Queste vengono compilate per gli errori identificati sia durante i controlli dell’integrità approfonditi sia dai controlli dell’agente di monitoraggio dell’integrità. -
Le etichette
fault-reasonriportano il motivo dettagliato del guasto associato afault-type.
Come SageMaker HyperPod etichettare
Gli argomenti seguenti illustrano come viene eseguita l’etichettatura in base ai vari casi.
Argomenti
Quando un nodo viene aggiunto a un SageMaker HyperPod cluster con la configurazione Deep Health Check disattivata
Quando viene aggiunto un nuovo nodo a un cluster e se il controllo approfondito dello stato non è abilitato per il gruppo di istanze, SageMaker HyperPod esegue gli stessi controlli di integrità dei controlli di SageMaker HyperPod integrità attualmente disponibili per i cluster Slurm.
Se il controllo dell’integrità viene superato, i nodi vengono contrassegnati con la seguente etichetta.
sagemaker.amazonaws.com/node-health-status: Schedulable
Se il controllo dell’integrità non viene superato, i nodi verranno terminati e sostituiti. Questo comportamento è lo stesso del funzionamento del controllo dello stato per i SageMaker HyperPod cluster Slurm.
Quando un nodo viene aggiunto a un SageMaker HyperPod cluster con la configurazione Deep Health Check abilitata
Quando viene aggiunto un nuovo nodo a un SageMaker HyperPod cluster e se il test di controllo approfondito dello stato è abilitato per il gruppo di istanze, HyperPod prima contamina il nodo e avvia il check/stress test di integrità approfondito di circa 2 ore sul nodo. Ci sono tre possibili esiti per le etichette dei nodi dopo il controllo dell’integrità approfondito.
-
Quando il test di controllo dell’integrità approfondito viene superato.
sagemaker.amazonaws.com/node-health-status: Schedulable -
Quando il test di controllo dell’integrità approfondito non riesce e l’istanza deve essere sostituita.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement -
Quando il test di controllo dell’integrità approfondito non riesce e l’istanza deve essere riavviata per ripetere il test.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
Se un’istanza non supera il test di controllo dell’integrità approfondito, verrà sempre sostituita. Se i test del controllo dell’integrità approfondito hanno esito positivo, il taint sul nodo verrà rimosso.
Quando si verificano errori di calcolo sui nodi
L'agente di monitoraggio dello stato di SageMaker HyperPod salute inoltre monitora continuamente lo stato di salute di ciascun nodo. Quando rileva eventuali guasti (ad esempio della GPU o del driver), l’agente contrassegna il nodo con una delle seguenti etichette.
-
Quando il nodo non è integro e deve essere sostituito.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement -
Quando il nodo non è integro e deve essere riavviato.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
L’agente di monitoraggio dell’integrità esegue il taint anche sul nodo se rileva eventuali problemi di integrità del nodo.