Risoluzione dei problemi - Amazon SageMaker AI

Risoluzione dei problemi

La pagina seguente contiene soluzioni note per la risoluzione dei problemi dei cluster HyperPod EKS.

Scheda Pannello di controllo

Installazione non riuscita del componente aggiuntivo EKS

Per installare correttamente il componente aggiuntivo EKS, è necessaria una versione di Kubernets >= 1.30. Per l’aggiornamento, consulta Update Kubernetes version.

Per installare correttamente il componente aggiuntivo EKS, tutti i nodi devono essere in stato Pronto e tutti i pod devono essere in stato In esecuzione.

Per verificare lo stato dei nodi, utilizza il comando della AWS CLI list-cluster-nodes o accedi al cluster EKS nella console EKS e visualizza lo stato dei nodi. Risolvi il problema per ogni nodo o contatta il tuo amministratore. Se lo stato del nodo è Sconosciuto, elimina il nodo. Quando lo stato di tutti i nodi è Pronto, riprova a installare il componente aggiuntivo EKS in HyperPod dalla console di Amazon SageMaker AI.

Per controllare lo stato dei pod, utilizza il comando della CLI di Kubernetes kubectl get pods -n cloudwatch-agent o accedi al cluster EKS nella console EKS e visualizza lo stato dei pod con il namespace cloudwatch-agent. Risolvi il problema dei pod o contatta il tuo amministratore. Quando lo stato di tutti i pod è In esecuzione, riprova a installare il componente aggiuntivo EKS in HyperPod dalla console di Amazon SageMaker AI.

Per altre attività di risoluzione dei problemi, consulta Troubleshooting the Amazon CloudWatch Observability EKS add-on.

Scheda Attività

Se viene visualizzato il messaggio di errore relativo alla mancata configurazione della Definizione di risorse personalizzate (CRD) nel cluster, assegna le policy EKSAdminViewPolicy e ClusterAccessRole al ruolo di esecuzione del dominio.

Policy

Di seguito sono elencate le soluzioni per i problemi relativi alle policy tramite API o console HyperPod.

  • Se la policy è in stato CreateFailed o CreateRollbackFailed, devi eliminare la policy non riuscita e crearne una nuova.

  • Se la policy è in stato UpdateFailed, prova a eseguire di nuovo l’aggiornamento con lo stesso ARN della policy.

  • Se la policy è in stato UpdateRollbackFailed, devi eliminare la policy non riuscita e crearne una nuova.

  • Se la policy è in stato DeleteFailed o DeleteRollbackFailed, prova a eliminarla di nuovo con lo stesso ARN della policy.

    • Se hai riscontrato un errore durante il tentativo di eliminare la Priorità delle risorse di calcolo o la policy del cluster con la console HyperPod, prova a eliminare cluster-scheduler-config con l’API. Per verificare lo stato della risorsa, vai alla pagina dei dettagli di un’allocazione delle risorse di calcolo.

Per visualizzare maggiori dettagli sull’errore, utilizza l’API describe.

Eliminazione dei cluster

Di seguito sono elencate le soluzioni note per gli errori relativi all’eliminazione dei cluster.

  • Se l’eliminazione del cluster non riesce a causa delle policy di governance delle attività di SageMaker HyperPod collegate, sarà necessario Eliminazione delle policy.

  • Se l’eliminazione del cluster non riesce perché mancano le autorizzazioni seguenti, devi aggiornare il set minimo di autorizzazioni dell’amministratore del cluster. Consulta la scheda Amazon EKS nella sezione Utenti IAM per l’amministratore del cluster.

    • sagemaker:ListComputeQuotas

    • sagemaker:ListClusterSchedulerConfig

    • sagemaker:DeleteComputeQuota

    • sagemaker:DeleteClusterSchedulerConfig