Solución de problemas - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Solución de problemas

La siguiente página contiene soluciones conocidas para solucionar problemas de sus clústeres de HyperPod EKS.

Pestaña Panel

El complemento de EKS no se instala

Para que la instalación del complemento de EKS se realice correctamente, necesita una versión de Kubernets >= 1.30. Para actualizar, consulte Actualización del clúster existente a la nueva versión de Kubernetes.

Para que la instalación del complemento de EKS se realice correctamente, todos los nodos deben tener el estado Listo y todos los pods deben tener el estado En ejecución.

Para comprobar el estado de los nodos, utilice el list-cluster-nodesAWS CLIcomando o navegue hasta el clúster de EKS en la consola de EKS y consulte el estado de los nodos. Resuelva el problema de cada nodo o póngase en contacto con su administrador. Si el estado del nodo es Desconocido, elimínelo. Cuando todos los estados de los nodos estén listos, vuelva a intentar instalar el complemento EKS HyperPod desde la consola Amazon SageMaker AI.

Para comprobar el estado de los pods, utilice el comando kubectl get pods -n cloudwatch-agent de la CLI de Kubernetes o navegue hasta el clúster de EKS en la consola de EKS y consulte el estado de los pods con el espacio de nombres cloudwatch-agent. Resuelve el problema de los pods o contacte con su administrador para resolverlo. Cuando todos los estados de los pods estén en ejecución, vuelve a intentar instalar el complemento EKS HyperPod desde la consola Amazon SageMaker AI.

Para obtener más información sobre la solución de problemas, consulte Solución de problemas del complemento Amazon CloudWatch Observability EKS.

Pestaña Tareas

Si aparece un mensaje de error que indica que la definición de recurso personalizada (CRD) no está configurada en el clúster, asígnele las políticas EKSAdminViewPolicy y ClusterAccessRole a su rol de ejecución de dominio.

Políticas

A continuación se enumeran las soluciones a los errores relacionados con las políticas que utilizan la consola HyperPod APIs o.

  • Si la política tiene los estados CreateFailed o CreateRollbackFailed, deberá eliminar la política fallida y crear una nueva.

  • Si la política tiene el estado UpdateFailed, vuelva a intentar la actualización con el mismo ARN de política.

  • Si la política tiene el estado UpdateRollbackFailed, deberá eliminar la política fallida y crear una nueva.

  • Si la política tiene los estados DeleteFailed y DeleteRollbackFailed, vuelva a intentar la eliminación con el mismo ARN de política.

    • Si se ha producido un error al intentar eliminar la política de clústeres o de priorización de procesamiento mediante la HyperPod consola, intente eliminarla cluster-scheduler-config mediante la API. Para comprobar el estado del recurso, vaya a la página de detalles de una asignación de recursos de computación.

Para ver más detalles sobre el error, usa la API de descripción.

Eliminación de clústeres

A continuación se enumeran las soluciones conocidas a los errores relacionados con la eliminación de clústeres.

  • Si se produce un error al eliminar un clúster debido a las políticas de control de SageMaker HyperPod tareas adjuntas, tendrás que hacerloEliminación de políticas.

  • Si se produce un error al eliminar el clúster debido a la falta de los siguientes permisos, tendrá que actualizar el conjunto mínimo de permisos del administrador del clúster. Consulte la pestaña Amazon EKS en la sección Usuarios de IAM para la administración de clústeres.

    • sagemaker:ListComputeQuotas

    • sagemaker:ListClusterSchedulerConfig

    • sagemaker:DeleteComputeQuota

    • sagemaker:DeleteClusterSchedulerConfig