Solución de problemas con el complemento de SageMaker HyperPod observabilidad de Amazon - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Solución de problemas con el complemento de SageMaker HyperPod observabilidad de Amazon

Usa la siguiente guía para resolver problemas comunes con el complemento de observabilidad Amazon SageMaker HyperPod (SageMaker HyperPod).

Solución de problemas de métricas que faltan de Amazon Managed Grafana

Si las métricas no aparecen en los paneles de Amazon Managed Grafana, siga estos pasos para identificar y resolver el problema.

Verificación de la conexión entre Amazon Managed Service para Prometheus y Amazon Managed Grafana

  1. Inicie sesión en la consola de Amazon Managed Grafana.

  2. En el panel de navegación izquierdo, elija Todos los espacios de trabajo.

  3. En la tabla Espacios de trabajo, elija su espacio de trabajo.

  4. En la página de detalles del espacio de trabajo, seleccione la pestaña Orígenes de datos.

  5. Compruebe que existe el origen de datos de Amazon Managed Service para Prometheus.

  6. Compruebe los ajustes de la conexión:

    • Confirme que la URL del punto de conexión sea correcta.

    • Compruebe que la autenticación de IAM esté configurada correctamente.

    • Elija Probar conexión. Compruebe que el estado sea El origen de datos funciona.

Verificación del estado del complemento de Amazon EKS

  1. Abra la consola Amazon EKS en https://console.aws.amazon.com/eks/home#/clusters.

  2. Seleccione el clúster.

  3. Elija la pestaña Complementos.

  4. Compruebe que el complemento de SageMaker HyperPod observabilidad aparezca en la lista y que su estado sea ACTIVO.

  5. Si el estado no es ACTIVE, consulte Solución de errores al instalar el complemento.

Verificación de la asociación de Pod Identity

  1. Abra la consola Amazon EKS en https://console.aws.amazon.com/eks/home#/clusters.

  2. Seleccione el clúster.

  3. En la página Detalles del clúster, seleccione la pestaña Acceso.

  4. En la tabla Asociaciones de Pod Identity, elija la asociación que tenga los siguientes valores de propiedad:

    • Espacio de nombres: hyperpod-observability

    • Cuenta de servicio: hyperpod-observability-operator-otel-collector

    • Complemento: amazon-sagemaker-hyperpod-observability

  5. Asegúrese de que el rol de IAM vinculado a esta asociación tenga los siguientes permisos.

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:us-east-1:111122223333:workspace/workspace-ID" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }
  6. Asegúrese de que el rol de IAM vinculado a esta asociación tenga la siguiente política de confianza. Compruebe que el ARN de origen y la cuenta de origen sean correctos.

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Sid": "AllowEksAuthToAssumeRoleForPodIdentity", "Effect": "Allow", "Principal": { "Service": "pods.eks.amazonaws.com" }, "Action": [ "sts:AssumeRole", "sts:TagSession" ], "Condition": { "StringEquals": { "aws:SourceArn": "arn:aws:eks:us-east-1:111122223333:cluster/cluster-name", "aws:SourceAccount": "111122223333" } } } ] }

Verificación de la limitación de Amazon Managed Service para Prometheus

  1. Inicie sesión en la consola Service Quotas Consola de administración de AWS y ábrala en https://console.aws.amazon.com/servicequotas/.

  2. En el cuadro Cuotas administradas, busque y seleccione Amazon Managed Service para Prometheus.

  3. Elige la cuota Serie activa por espacio de trabajo.

  4. En la pestaña Cuotas a nivel de recurso, seleccione el espacio de trabajo de Amazon Managed Service para Prometheus.

  5. Asegúrese de que la utilización sea inferior a la cuota actual.

  6. Si ha alcanzado el límite de cuota, seleccione su espacio de trabajo pulsando el botón de opción situado a la izquierda y, a continuación, elija Solicitud de aumento a nivel de recursos.

Compruebe que el almacenamiento en caché KV y el enrutamiento inteligente estén habilitados

Si falta el KVCache Metrics panel de control, la función no está habilitada o el puerto no se menciona en el. modelMetrics Para obtener más información sobre cómo activarlo, consulta los pasos 1 y 3 deConfigure el almacenamiento en caché KV y el enrutamiento inteligente para mejorar el rendimiento.

Si falta el Intelligent Router Metrics panel de control, active la función para que aparezcan. Para obtener más información sobre cómo habilitar esto, consulteConfigure el almacenamiento en caché KV y el enrutamiento inteligente para mejorar el rendimiento.

Solución de errores al instalar el complemento

Si el complemento de observabilidad no se instala, siga estos pasos para diagnosticar y resolver el problema.

Comprobación del estado de la sonda

  1. Abra la consola Amazon EKS en https://console.aws.amazon.com/eks/home#/clusters.

  2. Seleccione el clúster.

  3. Elija la pestaña Complementos.

  4. Seleccione el complemento que ha fallado.

  5. Consulte la sección Problemas de estado.

  6. Si el problema de estado está relacionado con las credenciales o Pod Identity, consulte Verificación de la asociación de Pod Identity. Asegúrese también de que el complemento del agente de Pod Identity se esté ejecutando en el clúster.

  7. Compruebe si hay errores en los registros del administrador. Para obtener instrucciones, consulte Consulta de los registros del administrador.

  8. Póngase en contacto con AWS Support con los detalles del problema.

Consulta de los registros del administrador

  1. Obtención del pod del administrador de complementos:

    kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager
  2. Si tiene problemas urgentes, póngase en contacto con Soporte.

Consulta de todos los pods de observabilidad

Todos los módulos que crea el complemento de SageMaker HyperPod observabilidad están en el hyperpod-observability espacio de nombres. Ejecute el siguiente comando para obtener el estado de estos pods.

kubectl get pods -n hyperpod-observability

Busque los pods cuyo estado sea pending o crashloopbackoff. Ejecute el siguiente comando para obtener los registros de estos pods pendientes o fallidos.

kubectl logs -n hyperpod-observability pod-name

Si no encuentra errores en los registros, ejecute el siguiente comando para describir los pods y buscar errores.

kubectl describe -n hyperpod-observability pod pod-name

Para obtener más contexto, ejecute los dos comandos siguientes para describir las implementaciones y los daemonsets de estos pods.

kubectl describe -n hyperpod-observability deployment deployment-name
kubectl describe -n hyperpod-observability daemonset daemonset-name

Solución de problemas de los pods que están bloqueados con el estado pendiente

Si ve que hay pods bloqueados con el estado pending, asegúrese de que el nodo sea suficientemente grande para que quepa en todos los pods. Para comprobarlo, realice los siguientes pasos.

  1. Abra la consola Amazon EKS en https://console.aws.amazon.com/eks/home#/clusters.

  2. Elija su clúster.

  3. Elija la pestaña Computación del clúster.

  4. Elija el nodo con el tipo de instancia más pequeño.

  5. En la sección de asignación de capacidad, busque los pods disponibles.

  6. Si no hay pods disponibles, necesitará un tipo de instancia más grande.

Si tiene problemas urgentes, póngase en contacto con AWS Support.