Etichette Kubernetes relative alla resilienza di SageMaker HyperPod - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Etichette Kubernetes relative alla resilienza di SageMaker HyperPod

Le etichette sono coppie chiave-valore allegate agli oggetti Kubernetes. SageMaker HyperPod introduce le seguenti etichette per i controlli sanitari che fornisce.

Etichette dello stato di integrità dei nodi

Le etichette node-health-status rappresentano lo stato di integrità del nodo e devono essere utilizzate come parte del filtro di selezione dei nodi integri.

Etichetta Description
sagemaker.amazonaws.com/node-health-status: Schedulable Il nodo ha superato i controlli dell’integrità di base ed è disponibile per l’esecuzione di carichi di lavoro. Questo controllo di integrità è lo stesso delle funzionalità di SageMaker HyperPod resilienza attualmente disponibili per i cluster Slurm.
sagemaker.amazonaws.com/node-health-status: Unschedulable Il nodo sta eseguendo controlli dell’integrità approfonditi e non è disponibile per l’esecuzione di carichi di lavoro.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement Il nodo non ha superato i controlli dell’integrità approfonditi o i controlli degli agenti di monitoraggio dell’integrità e deve essere sostituito. Se il ripristino automatico del nodo è abilitato, il nodo verrà automaticamente sostituito da. SageMaker HyperPod
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot Il nodo non ha superato i controlli dell’integrità approfonditi o i controlli degli agenti di monitoraggio dell’integrità e richiede un riavvio. Se il ripristino automatico del nodo è abilitato, il nodo verrà riavviato automaticamente da. SageMaker HyperPod

Etichette dei controlli dell’integrità approfonditi

Le etichette deep-health-check-status rappresentano lo stato di avanzamento dei controlli dell’integrità approfonditi su un nodo specifico. Sono utili agli utenti di Kubernetes per filtrare rapidamente in base allo stato di avanzamento complessivo dei controlli dell’integrità approfonditi.

Etichetta Description
sagemaker.amazonaws.com/deep-health-check-status: InProgress Il nodo sta eseguendo controlli dell’integrità approfonditi e non è disponibile per l’esecuzione di carichi di lavoro.
sagemaker.amazonaws.com/deep-health-check-status: Passed Il nodo ha completato correttamente i controlli dell’integrità approfonditi e i controlli degli agenti di monitoraggio dell’integrità ed è disponibile per l’esecuzione di carichi di lavoro.
sagemaker.amazonaws.com/deep-health-check-status: Failed Il nodo non ha superato i controlli dell’integrità approfonditi o i controlli degli agenti di monitoraggio dell’integrità e richiede il riavvio o la sostituzione. Se il ripristino automatico del nodo è abilitato, il nodo verrà riavviato o sostituito automaticamente da. SageMaker HyperPod

Etichette relative al tipo e al motivo del guasto

Di seguito vengono descritte le etichette fault-type efault-reason.

  • Le etichette fault-type rappresentano categorie generali per i guasti in caso di controlli dell’integrità non riusciti. Queste vengono compilate per gli errori identificati sia durante i controlli dell’integrità approfonditi sia dai controlli dell’agente di monitoraggio dell’integrità.

  • Le etichette fault-reason riportano il motivo dettagliato del guasto associato a fault-type.

Come SageMaker HyperPod etichettare

Gli argomenti seguenti illustrano come viene eseguita l’etichettatura in base ai vari casi.

Quando un nodo viene aggiunto a un SageMaker HyperPod cluster con la configurazione Deep Health Check disattivata

Quando viene aggiunto un nuovo nodo a un cluster e se il controllo approfondito dello stato non è abilitato per il gruppo di istanze, SageMaker HyperPod esegue gli stessi controlli di integrità dei controlli di SageMaker HyperPod integrità attualmente disponibili per i cluster Slurm.

Se il controllo dell’integrità viene superato, i nodi vengono contrassegnati con la seguente etichetta.

sagemaker.amazonaws.com/node-health-status: Schedulable

Se il controllo dell’integrità non viene superato, i nodi verranno terminati e sostituiti. Questo comportamento è lo stesso del funzionamento del controllo dello stato per i SageMaker HyperPod cluster Slurm.

Quando un nodo viene aggiunto a un SageMaker HyperPod cluster con la configurazione Deep Health Check abilitata

Quando viene aggiunto un nuovo nodo a un SageMaker HyperPod cluster e se il test di controllo approfondito dello stato è abilitato per il gruppo di istanze, HyperPod prima contamina il nodo e avvia il check/stress test di integrità approfondito di circa 2 ore sul nodo. Ci sono tre possibili esiti per le etichette dei nodi dopo il controllo dell’integrità approfondito.

  1. Quando il test di controllo dell’integrità approfondito viene superato.

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. Quando il test di controllo dell’integrità approfondito non riesce e l’istanza deve essere sostituita.

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. Quando il test di controllo dell’integrità approfondito non riesce e l’istanza deve essere riavviata per ripetere il test.

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

Se un’istanza non supera il test di controllo dell’integrità approfondito, verrà sempre sostituita. Se i test del controllo dell’integrità approfondito hanno esito positivo, il taint sul nodo verrà rimosso.

Quando si verificano errori di calcolo sui nodi

L'agente di monitoraggio dello stato di SageMaker HyperPod salute inoltre monitora continuamente lo stato di salute di ciascun nodo. Quando rileva eventuali guasti (ad esempio della GPU o del driver), l’agente contrassegna il nodo con una delle seguenti etichette.

  1. Quando il nodo non è integro e deve essere sostituito.

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. Quando il nodo non è integro e deve essere riavviato.

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

L’agente di monitoraggio dell’integrità esegue il taint anche sul nodo se rileva eventuali problemi di integrità del nodo.