Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Solución de problemas
La siguiente página contiene soluciones conocidas para solucionar problemas de sus clústeres de HyperPod EKS.
Temas
Pestaña Panel
El complemento de EKS no se instala
Para que la instalación del complemento de EKS se realice correctamente, necesita una versión de Kubernets >= 1.30. Para actualizar, consulte Actualización del clúster existente a la nueva versión de Kubernetes.
Para que la instalación del complemento de EKS se realice correctamente, todos los nodos deben tener el estado Listo y todos los pods deben tener el estado En ejecución.
Para comprobar el estado de los nodos, utilice el list-cluster-nodes AWS CLI comando o navegue hasta el clúster de EKS en la consola de EKS
Para comprobar el estado de los pods, utilice el comando kubectl get pods -n cloudwatch-agent de la CLI de Kubernetescloudwatch-agent. Resuelve el problema de los pods o contacte con su administrador para resolverlo. Cuando todos los estados de los pods estén en ejecución, vuelve a intentar instalar el complemento EKS HyperPod desde la consola Amazon SageMaker AI
Para obtener más información sobre la solución de problemas, consulte Solución de problemas del complemento Amazon CloudWatch Observability EKS.
Pestaña Tareas
Si aparece un mensaje de error que indica que la definición de recurso personalizada (CRD) no está configurada en el clúster, asígnele las políticas EKSAdminViewPolicy y ClusterAccessRole a su rol de ejecución de dominio.
-
Para obtener información sobre cómo obtener el rol de ejecución, consulte Obtención del rol de ejecución.
-
Para obtener más información acerca de cómo asociar políticas a un grupo o usuario de IAM, consulte Adición y eliminación de permisos de identidad de IAM.
Políticas
A continuación se enumeran las soluciones a los errores relacionados con las políticas que utilizan la consola HyperPod APIs o.
-
Si la política tiene los estados
CreateFailedoCreateRollbackFailed, deberá eliminar la política fallida y crear una nueva. -
Si la política tiene el estado
UpdateFailed, vuelva a intentar la actualización con el mismo ARN de política. -
Si la política tiene el estado
UpdateRollbackFailed, deberá eliminar la política fallida y crear una nueva. -
Si la política tiene los estados
DeleteFailedyDeleteRollbackFailed, vuelva a intentar la eliminación con el mismo ARN de política.-
Si se ha producido un error al intentar eliminar la política de clústeres o de priorización de procesamiento mediante la HyperPod consola, intente eliminarla
cluster-scheduler-configmediante la API. Para comprobar el estado del recurso, vaya a la página de detalles de una asignación de recursos de computación.
-
Para ver más detalles sobre el error, usa la API de descripción.
Eliminación de clústeres
A continuación se enumeran las soluciones conocidas a los errores relacionados con la eliminación de clústeres.
-
Si se produce un error al eliminar un clúster debido a las políticas de control de SageMaker HyperPod tareas adjuntas, tendrás que hacerloEliminación de políticas.
-
Si se produce un error al eliminar el clúster debido a la falta de los siguientes permisos, tendrá que actualizar el conjunto mínimo de permisos del administrador del clúster. Consulte la pestaña Amazon EKS en la sección Usuarios de IAM para la administración de clústeres.
-
sagemaker:ListComputeQuotas -
sagemaker:ListClusterSchedulerConfig -
sagemaker:DeleteComputeQuota -
sagemaker:DeleteClusterSchedulerConfig
-
Uso compartido de recursos no asignados
Si la capacidad de su fondo de recursos no asignado es inferior a la esperada:
-
Compruebe el estado del nodo listo
kubectl get nodesCompruebe que todos los nodos muestren
Readysu estado en la columna STATUS. -
Compruebe el estado programable del nodo
kubectl get nodes -o custom-columns=NAME:.metadata.name,UNSCHEDULABLE:.spec.unschedulableCompruebe si los nodos se muestran
<none>ofalsenotrue. -
Listar el uso compartido ClusterQueues de recursos no asignados:
kubectl get clusterqueue | grep hyperpod-ns-idle-resource-sharingMuestra todos los recursos compartidos no asignados. ClusterQueues Si no ClusterQueues aparecen, compruebe la
FailureReasonsiguiente ClusterSchedulerConfig política para ver si hay algún mensaje de error para continuar con la depuración. -
Compruebe la cuota de uso compartido de recursos no asignada:
kubectl describe clusterqueue hyperpod-ns-idle-resource-sharing-<index>Consulte la
spec.resourceGroups[].flavors[].resourcessección para ver la cuota asignada a cada tipo de recurso.ClusterQueues Es posible que se compartan varios recursos no asignados en función del número de tipos de recursos del clúster.
-
Compruebe el estado de la configuración de MIG (nodos de GPU):
kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.metadata.labels.nvidia\.com/mig\.config\.state}{"\n"}{end}'Compruebe que los nodos habilitados para MIG muestren su estado.
success