Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Risoluzione dei problemi
La pagina seguente contiene soluzioni note per la risoluzione dei problemi dei cluster EKS. HyperPod
Argomenti
Scheda Pannello di controllo
Installazione non riuscita del componente aggiuntivo EKS
Per installare correttamente il componente aggiuntivo EKS, è necessaria una versione di Kubernets >= 1.30. Per l’aggiornamento, consulta Update Kubernetes version.
Per installare correttamente il componente aggiuntivo EKS, tutti i nodi devono essere in stato Pronto e tutti i pod devono essere in stato In esecuzione.
Per verificare lo stato dei nodi, utilizza il list-cluster-nodes AWS CLI comando o accedi al cluster EKS nella console EKS
Per controllare lo stato dei pod, utilizza il comando della CLI di Kuberneteskubectl get pods -n cloudwatch-agent o accedi al cluster EKS nella console EKScloudwatch-agent. Risolvi il problema dei pod o contatta il tuo amministratore. Una volta che tutti gli stati del pod sono in esecuzione, riprova a installare il componente aggiuntivo EKS HyperPod dalla console Amazon SageMaker
Per ulteriori informazioni sulla risoluzione dei problemi, consulta Risoluzione dei problemi del componente aggiuntivo Amazon CloudWatch Observability EKS.
Scheda Attività
Se viene visualizzato il messaggio di errore relativo alla mancata configurazione della Definizione di risorse personalizzate (CRD) nel cluster, assegna le policy EKSAdminViewPolicy e ClusterAccessRole al ruolo di esecuzione del dominio.
-
Per informazioni su come ottenere il ruolo di esecuzione, consulta Acquisizione del ruolo di esecuzione.
-
Per informazioni su come collegare le policy a un utente o a un gruppo IAM, consulta Adding and removing IAM identity permissions.
Policy
Di seguito sono elencate le soluzioni agli errori relativi alle politiche che utilizzano la console HyperPod APIs or.
-
Se la policy è in stato
CreateFailedoCreateRollbackFailed, devi eliminare la policy non riuscita e crearne una nuova. -
Se la policy è in stato
UpdateFailed, prova a eseguire di nuovo l’aggiornamento con lo stesso ARN della policy. -
Se la policy è in stato
UpdateRollbackFailed, devi eliminare la policy non riuscita e crearne una nuova. -
Se la policy è in stato
DeleteFailedoDeleteRollbackFailed, prova a eliminarla di nuovo con lo stesso ARN della policy.-
Se hai riscontrato un errore durante il tentativo di eliminare la prioritizzazione di Compute, o la policy del cluster, utilizzando la HyperPod console, prova a eliminarlo
cluster-scheduler-configutilizzando l'API. Per verificare lo stato della risorsa, vai alla pagina dei dettagli di un’allocazione delle risorse di calcolo.
-
Per visualizzare maggiori dettagli sull’errore, utilizza l’API describe.
Eliminazione dei cluster
Di seguito sono elencate le soluzioni note per gli errori relativi all’eliminazione dei cluster.
-
Se l'eliminazione del cluster fallisce a causa delle politiche di governance delle SageMaker HyperPod attività allegate, dovrai farlo. Eliminazione delle policy
-
Se l’eliminazione del cluster non riesce perché mancano le autorizzazioni seguenti, devi aggiornare il set minimo di autorizzazioni dell’amministratore del cluster. Consulta la scheda Amazon EKS nella sezione Utenti IAM per l’amministratore del cluster.
-
sagemaker:ListComputeQuotas -
sagemaker:ListClusterSchedulerConfig -
sagemaker:DeleteComputeQuota -
sagemaker:DeleteClusterSchedulerConfig
-
Condivisione di risorse non allocate
Se la capacità del pool di risorse non allocate è inferiore al previsto:
-
Verifica lo stato di disponibilità del nodo
kubectl get nodesVerifica che tutti i nodi mostrino
Readylo stato nella colonna STATUS. -
Controlla lo stato di pianificazione del nodo
kubectl get nodes -o custom-columns=NAME:.metadata.name,UNSCHEDULABLE:.spec.unschedulableVerifica che i nodi mostrino
<none>ofalse(notrue). -
Elenca la condivisione di risorse non allocate: ClusterQueues
kubectl get clusterqueue | grep hyperpod-ns-idle-resource-sharingQuesto mostra tutte le condivisioni di risorse non allocate. ClusterQueues Se non ClusterQueues vengono visualizzati, controlla la ClusterSchedulerConfig politica
FailureReasonsottostante per vedere se ci sono messaggi di errore per continuare il debug. -
Verifica la quota di condivisione delle risorse non allocate:
kubectl describe clusterqueue hyperpod-ns-idle-resource-sharing-<index>Controlla la
spec.resourceGroups[].flavors[].resourcessezione per vedere la quota assegnata per ogni tipo di risorsa.ClusterQueues Può esistere una condivisione multipla di risorse non allocate a seconda del numero di tipologie di risorse presenti nel cluster.
-
Verifica lo stato della configurazione MIG (nodi GPU):
kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.metadata.labels.nvidia\.com/mig\.config\.state}{"\n"}{end}'Verifica che i nodi abilitati a MIG mostrino lo stato.
success