Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Risoluzione dei problemi
La pagina seguente contiene soluzioni note per la risoluzione dei problemi dei cluster EKS. HyperPod
Scheda Pannello di controllo
Installazione non riuscita del componente aggiuntivo EKS
Per installare correttamente il componente aggiuntivo EKS, è necessaria una versione di Kubernets >= 1.30. Per l’aggiornamento, consulta Update Kubernetes version.
Per installare correttamente il componente aggiuntivo EKS, tutti i nodi devono essere in stato Pronto e tutti i pod devono essere in stato In esecuzione.
Per verificare lo stato dei nodi, utilizza il list-cluster-nodesAWS CLIcomando o accedi al cluster EKS nella console EKS
Per controllare lo stato dei pod, utilizza il comando della CLI di Kuberneteskubectl get pods -n cloudwatch-agent o accedi al cluster EKS nella console EKScloudwatch-agent. Risolvi il problema dei pod o contatta il tuo amministratore. Una volta che tutti gli stati del pod sono in esecuzione, riprova a installare il componente aggiuntivo EKS HyperPod dalla console Amazon SageMaker
Per ulteriori informazioni sulla risoluzione dei problemi, consulta Risoluzione dei problemi del componente aggiuntivo Amazon CloudWatch Observability EKS.
Scheda Attività
Se viene visualizzato il messaggio di errore relativo alla mancata configurazione della Definizione di risorse personalizzate (CRD) nel cluster, assegna le policy EKSAdminViewPolicy e ClusterAccessRole al ruolo di esecuzione del dominio.
-
Per informazioni su come ottenere il ruolo di esecuzione, consulta Acquisizione del ruolo di esecuzione.
-
Per informazioni su come collegare le policy a un utente o a un gruppo IAM, consulta Adding and removing IAM identity permissions.
Policy
Di seguito sono elencate le soluzioni agli errori relativi alle politiche che utilizzano la console HyperPod APIs or.
-
Se la policy è in stato
CreateFailedoCreateRollbackFailed, devi eliminare la policy non riuscita e crearne una nuova. -
Se la policy è in stato
UpdateFailed, prova a eseguire di nuovo l’aggiornamento con lo stesso ARN della policy. -
Se la policy è in stato
UpdateRollbackFailed, devi eliminare la policy non riuscita e crearne una nuova. -
Se la policy è in stato
DeleteFailedoDeleteRollbackFailed, prova a eliminarla di nuovo con lo stesso ARN della policy.-
Se hai riscontrato un errore durante il tentativo di eliminare la prioritizzazione di Compute, o la policy del cluster, utilizzando la HyperPod console, prova a eliminarlo
cluster-scheduler-configutilizzando l'API. Per verificare lo stato della risorsa, vai alla pagina dei dettagli di un’allocazione delle risorse di calcolo.
-
Per visualizzare maggiori dettagli sull’errore, utilizza l’API describe.
Eliminazione dei cluster
Di seguito sono elencate le soluzioni note per gli errori relativi all’eliminazione dei cluster.
-
Se l'eliminazione del cluster fallisce a causa delle politiche di governance delle SageMaker HyperPod attività allegate, dovrai farlo. Eliminazione delle policy
-
Se l’eliminazione del cluster non riesce perché mancano le autorizzazioni seguenti, devi aggiornare il set minimo di autorizzazioni dell’amministratore del cluster. Consulta la scheda Amazon EKS nella sezione Utenti IAM per l’amministratore del cluster.
-
sagemaker:ListComputeQuotas -
sagemaker:ListClusterSchedulerConfig -
sagemaker:DeleteComputeQuota -
sagemaker:DeleteClusterSchedulerConfig
-