Risoluzione dei problemi
La pagina seguente contiene soluzioni note per la risoluzione dei problemi dei cluster HyperPod EKS.
Scheda Pannello di controllo
Installazione non riuscita del componente aggiuntivo EKS
Per installare correttamente il componente aggiuntivo EKS, è necessaria una versione di Kubernets >= 1.30. Per l’aggiornamento, consulta Update Kubernetes version.
Per installare correttamente il componente aggiuntivo EKS, tutti i nodi devono essere in stato Pronto e tutti i pod devono essere in stato In esecuzione.
Per verificare lo stato dei nodi, utilizza il comando della AWS CLI list-cluster-nodes o accedi al cluster EKS nella console EKS
Per controllare lo stato dei pod, utilizza il comando della CLI di Kuberneteskubectl get pods -n cloudwatch-agent o accedi al cluster EKS nella console EKScloudwatch-agent. Risolvi il problema dei pod o contatta il tuo amministratore. Quando lo stato di tutti i pod è In esecuzione, riprova a installare il componente aggiuntivo EKS in HyperPod dalla console di Amazon SageMaker AI
Per altre attività di risoluzione dei problemi, consulta Troubleshooting the Amazon CloudWatch Observability EKS add-on.
Scheda Attività
Se viene visualizzato il messaggio di errore relativo alla mancata configurazione della Definizione di risorse personalizzate (CRD) nel cluster, assegna le policy EKSAdminViewPolicy e ClusterAccessRole al ruolo di esecuzione del dominio.
-
Per informazioni su come ottenere il ruolo di esecuzione, consulta Acquisizione del ruolo di esecuzione.
-
Per informazioni su come collegare le policy a un utente o a un gruppo IAM, consulta Adding and removing IAM identity permissions.
Policy
Di seguito sono elencate le soluzioni per i problemi relativi alle policy tramite API o console HyperPod.
-
Se la policy è in stato
CreateFailedoCreateRollbackFailed, devi eliminare la policy non riuscita e crearne una nuova. -
Se la policy è in stato
UpdateFailed, prova a eseguire di nuovo l’aggiornamento con lo stesso ARN della policy. -
Se la policy è in stato
UpdateRollbackFailed, devi eliminare la policy non riuscita e crearne una nuova. -
Se la policy è in stato
DeleteFailedoDeleteRollbackFailed, prova a eliminarla di nuovo con lo stesso ARN della policy.-
Se hai riscontrato un errore durante il tentativo di eliminare la Priorità delle risorse di calcolo o la policy del cluster con la console HyperPod, prova a eliminare
cluster-scheduler-configcon l’API. Per verificare lo stato della risorsa, vai alla pagina dei dettagli di un’allocazione delle risorse di calcolo.
-
Per visualizzare maggiori dettagli sull’errore, utilizza l’API describe.
Eliminazione dei cluster
Di seguito sono elencate le soluzioni note per gli errori relativi all’eliminazione dei cluster.
-
Se l’eliminazione del cluster non riesce a causa delle policy di governance delle attività di SageMaker HyperPod collegate, sarà necessario Eliminazione delle policy.
-
Se l’eliminazione del cluster non riesce perché mancano le autorizzazioni seguenti, devi aggiornare il set minimo di autorizzazioni dell’amministratore del cluster. Consulta la scheda Amazon EKS nella sezione Utenti IAM per l’amministratore del cluster.
-
sagemaker:ListComputeQuotas -
sagemaker:ListClusterSchedulerConfig -
sagemaker:DeleteComputeQuota -
sagemaker:DeleteClusterSchedulerConfig
-