Risoluzione dei problemi - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Risoluzione dei problemi

La pagina seguente contiene soluzioni note per la risoluzione dei problemi dei cluster EKS. HyperPod

Scheda Pannello di controllo

Installazione non riuscita del componente aggiuntivo EKS

Per installare correttamente il componente aggiuntivo EKS, è necessaria una versione di Kubernets >= 1.30. Per l’aggiornamento, consulta Update Kubernetes version.

Per installare correttamente il componente aggiuntivo EKS, tutti i nodi devono essere in stato Pronto e tutti i pod devono essere in stato In esecuzione.

Per verificare lo stato dei nodi, utilizza il list-cluster-nodesAWS CLIcomando o accedi al cluster EKS nella console EKS e visualizza lo stato dei nodi. Risolvi il problema per ogni nodo o contatta il tuo amministratore. Se lo stato del nodo è Sconosciuto, elimina il nodo. Una volta che tutti gli stati dei nodi sono pronti, riprova a installare il componente aggiuntivo EKS HyperPod dalla console Amazon SageMaker AI.

Per controllare lo stato dei pod, utilizza il comando della CLI di Kubernetes kubectl get pods -n cloudwatch-agent o accedi al cluster EKS nella console EKS e visualizza lo stato dei pod con il namespace cloudwatch-agent. Risolvi il problema dei pod o contatta il tuo amministratore. Una volta che tutti gli stati del pod sono in esecuzione, riprova a installare il componente aggiuntivo EKS HyperPod dalla console Amazon SageMaker AI.

Per ulteriori informazioni sulla risoluzione dei problemi, consulta Risoluzione dei problemi del componente aggiuntivo Amazon CloudWatch Observability EKS.

Scheda Attività

Se viene visualizzato il messaggio di errore relativo alla mancata configurazione della Definizione di risorse personalizzate (CRD) nel cluster, assegna le policy EKSAdminViewPolicy e ClusterAccessRole al ruolo di esecuzione del dominio.

Policy

Di seguito sono elencate le soluzioni agli errori relativi alle politiche che utilizzano la console HyperPod APIs or.

  • Se la policy è in stato CreateFailed o CreateRollbackFailed, devi eliminare la policy non riuscita e crearne una nuova.

  • Se la policy è in stato UpdateFailed, prova a eseguire di nuovo l’aggiornamento con lo stesso ARN della policy.

  • Se la policy è in stato UpdateRollbackFailed, devi eliminare la policy non riuscita e crearne una nuova.

  • Se la policy è in stato DeleteFailed o DeleteRollbackFailed, prova a eliminarla di nuovo con lo stesso ARN della policy.

    • Se hai riscontrato un errore durante il tentativo di eliminare la prioritizzazione di Compute, o la policy del cluster, utilizzando la HyperPod console, prova a eliminarlo cluster-scheduler-config utilizzando l'API. Per verificare lo stato della risorsa, vai alla pagina dei dettagli di un’allocazione delle risorse di calcolo.

Per visualizzare maggiori dettagli sull’errore, utilizza l’API describe.

Eliminazione dei cluster

Di seguito sono elencate le soluzioni note per gli errori relativi all’eliminazione dei cluster.

  • Se l'eliminazione del cluster fallisce a causa delle politiche di governance delle SageMaker HyperPod attività allegate, dovrai farlo. Eliminazione delle policy

  • Se l’eliminazione del cluster non riesce perché mancano le autorizzazioni seguenti, devi aggiornare il set minimo di autorizzazioni dell’amministratore del cluster. Consulta la scheda Amazon EKS nella sezione Utenti IAM per l’amministratore del cluster.

    • sagemaker:ListComputeQuotas

    • sagemaker:ListClusterSchedulerConfig

    • sagemaker:DeleteComputeQuota

    • sagemaker:DeleteClusterSchedulerConfig