Résolution des problèmes liés au module complémentaire SageMaker HyperPod d'observabilité Amazon - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Résolution des problèmes liés au module complémentaire SageMaker HyperPod d'observabilité Amazon

Suivez les instructions suivantes pour résoudre les problèmes courants liés au module complémentaire d'observabilité Amazon SageMaker HyperPod (SageMaker HyperPod).

Résolution du problème de métriques manquantes dans Amazon Managed Grafana

Si les statistiques n’apparaissent pas dans vos tableaux de bord Amazon Managed Grafana, effectuez les étapes suivantes pour identifier et résoudre le problème.

Vérification de la connexion du service géré Amazon pour Prometheus et d’Amazon Managed Grafana

  1. Connectez-vous à la console Amazon Managed Grafana.

  2. Dans le volet de gauche, choisissez Tous les espaces de travail.

  3. Dans le tableau Espaces de travail, choisissez votre espace de travail.

  4. Sur la page de détails de l’espace de travail, choisissez l’onglet Sources de données.

  5. Vérifiez que la source de données Service géré Amazon pour Prometheus existe.

  6. Vérifiez les paramètres de connexion :

    • Confirmez que l’URL du point de terminaison est correcte.

    • Vérifiez que l’authentification IAM est correctement configurée.

    • Choisissez Test connection (Tester la connexion). Vérifiez que le statut est La source de données fonctionne.

Vérification du statut du module complémentaire Amazon EKS

  1. Ouvrez la console Amazon EKS à l'adresse https://console.aws.amazon.com/eks/home#/clusters.

  2. Sélectionnez votre cluster.

  3. Choisissez l’onglet Modules complémentaires.

  4. Vérifiez que le module complémentaire SageMaker HyperPod d'observabilité est répertorié et que son statut est ACTIF.

  5. Si le statut n’est pas ACTIF, consultez Résolution des échecs d’installation du module complémentaire.

Vérification de l’association d’identité du pod

  1. Ouvrez la console Amazon EKS à l'adresse https://console.aws.amazon.com/eks/home#/clusters.

  2. Sélectionnez votre cluster.

  3. Sur la page de détails du cluster, choisissez l’onglet Accès.

  4. Dans le tableau Associations d’identité du pod, choisissez l’association dont les valeurs de propriété sont les suivantes :

    • Espace de noms : hyperpod-observability

    • Compte de service : hyperpod-observability-operator-otel-collector

    • Module complémentaire : amazon-sagemaker-hyperpod-observability

  5. Assurez-vous que le rôle IAM attaché à cette association dispose des autorisations suivantes.

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:us-east-1:111122223333:workspace/workspace-ID" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }
  6. Assurez-vous que le rôle IAM attaché à cette association possède la politique d’approbation suivante. Vérifiez que l’ARN source et le compte source sont corrects.

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Sid": "AllowEksAuthToAssumeRoleForPodIdentity", "Effect": "Allow", "Principal": { "Service": "pods.eks.amazonaws.com" }, "Action": [ "sts:AssumeRole", "sts:TagSession" ], "Condition": { "StringEquals": { "aws:SourceArn": "arn:aws:eks:us-east-1:111122223333:cluster/cluster-name", "aws:SourceAccount": "111122223333" } } } ] }

Vérification de la limitation du service géré Amazon pour Prometheus

  1. Connectez-vous à la console Service Quotas AWS Management Console et ouvrez-la à l'adresse https://console.aws.amazon.com/servicequotas/.

  2. Dans la zone Quotas gérés, recherchez et sélectionnez le service géré Amazon pour Prometheus.

  3. Choisissez le quota Série active par espace de travail.

  4. Dans l’onglet Quotas au niveau des ressources, sélectionnez votre espace de travail Service géré Amazon pour Prometheus.

  5. Assurez-vous que l’utilisation est inférieure à votre quota actuel.

  6. Si vous avez atteint la limite de quota, sélectionnez votre espace de travail en choisissant la case d’option située à sa gauche, puis choisissez Demander une augmentation au niveau des ressources.

Vérifiez que la mise en cache KV et le routage intelligent sont activés

Si le KVCache Metrics tableau de bord est absent, la fonctionnalité n'est pas activée ou le port n'est pas mentionné dans lemodelMetrics. Pour plus d'informations sur la façon de l'activer, reportez-vous aux étapes 1 et 3 deConfigurer la mise en cache KV et le routage intelligent pour améliorer les performances.

Si le Intelligent Router Metrics tableau de bord est absent, activez la fonctionnalité pour qu'ils apparaissent. Pour plus d'informations sur la façon de l'activer, consultezConfigurer la mise en cache KV et le routage intelligent pour améliorer les performances.

Résolution des échecs d’installation du module complémentaire

Si le module complémentaire d’observabilité ne s’installe pas, suivez les étapes ci-dessous pour diagnostiquer et résoudre le problème.

Vérification du statut de vérification de l’état

  1. Ouvrez la console Amazon EKS à l'adresse https://console.aws.amazon.com/eks/home#/clusters.

  2. Sélectionnez votre cluster.

  3. Choisissez l’onglet Modules complémentaires.

  4. Choisissez le module complémentaire qui a échoué.

  5. Examinez la section Problèmes de santé.

  6. Si le problème d’état est lié aux informations d’identification ou à l’identité du pod, consultez Vérification de l’association d’identité du pod. Assurez-vous également que le module complémentaire d’agent d’identité du pod est en cours d’exécution dans le cluster.

  7. Recherchez des erreurs dans les journaux du gestionnaire. Pour obtenir des instructions, veuillez consulter Examen des journaux du gestionnaire.

  8. Contactez le AWS Support pour obtenir les détails du problème.

Examen des journaux du gestionnaire

  1. Obtenez le pod de gestion du module complémentaire :

    kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager
  2. Pour des problèmes urgents, contactez Support.

Examen de tous les pods d’observabilité

Tous les pods créés par le module complémentaire SageMaker HyperPod d'observabilité se trouvent dans l'espace de hyperpod-observability noms. Pour obtenir le statut de ces pods, exécutez la commande suivante.

kubectl get pods -n hyperpod-observability

Recherchez les pods dont le statut est pending ou crashloopbackoff. Exécutez la commande suivante pour obtenir les journaux de ces pods en attente ou défaillants.

kubectl logs -n hyperpod-observability pod-name

Si vous ne trouvez aucune erreur dans les journaux, exécutez la commande suivante pour décrire les pods et rechercher des erreurs.

kubectl describe -n hyperpod-observability pod pod-name

Pour obtenir plus de contexte, exécutez les deux commandes suivantes pour décrire les déploiements et les daemonsets de ces pods.

kubectl describe -n hyperpod-observability deployment deployment-name
kubectl describe -n hyperpod-observability daemonset daemonset-name

Résolution des problèmes liés aux pods bloqués avec le statut En attente

Si vous constatez que certains pods sont bloqués avec le statut pending, assurez-vous que le nœud est suffisamment grand pour contenir tous les pods. Pour vérifier cela, effectuez les opérations suivantes.

  1. Ouvrez la console Amazon EKS à l'adresse https://console.aws.amazon.com/eks/home#/clusters.

  2. Choisissez votre cluster.

  3. Choisissez l’onglet Calcul du cluster.

  4. Choisissez le nœud avec le plus petit type d’instance.

  5. Dans la section d’allocation de capacité, recherchez les pods disponibles.

  6. Si aucun pod n’est disponible, vous avez besoin d’un type d’instance plus grand.

Pour des problèmes urgents, contactez AWS Support.