Fehlerbehebung beim Amazon SageMaker HyperPod Observability Add-on - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Fehlerbehebung beim Amazon SageMaker HyperPod Observability Add-on

Verwenden Sie die folgenden Anleitungen, um häufig auftretende Probleme mit dem Amazon SageMaker HyperPod (SageMaker HyperPod) Observability-Add-on zu lösen.

Behebung fehlender Metriken in Amazon Managed Grafana

Wenn Metriken nicht in Ihren Amazon Managed Grafana-Dashboards angezeigt werden, führen Sie die folgenden Schritte aus, um das Problem zu identifizieren und zu lösen.

Überprüfen Sie die Verbindung zwischen Amazon Managed Service für Prometheus und Amazon Managed Grafana

  1. Melden Sie sich bei der Amazon Managed Grafana-Konsole an.

  2. Wählen Sie im linken Bereich Alle Arbeitsbereiche aus.

  3. Wählen Sie in der Tabelle WorkBereiche Ihren Workspace aus.

  4. Wählen Sie auf der Detailseite des Workspace den Tab Datenquellen aus.

  5. Stellen Sie sicher, dass die Datenquelle von Amazon Managed Service für Prometheus vorhanden ist.

  6. Überprüfen Sie die Verbindungseinstellungen:

    • Vergewissern Sie sich, dass die Endpunkt-URL korrekt ist.

    • Stellen Sie sicher, dass die IAM-Authentifizierung ordnungsgemäß konfiguriert ist.

    • Wählen Sie Test connection (Verbindung testen) aus. Stellen Sie sicher, dass der Status „Datenquelle funktioniert“ lautet.

Überprüfen Sie den Amazon-EKS-Add-on-Status

  1. Öffnen Sie die Amazon EKS-Konsole unter https://console.aws.amazon.com/eks/home#/clusters.

  2. Wählen Sie Ihren Cluster aus.

  3. Wählen Sie die Registerkarte Add-ons.

  4. Vergewissern Sie sich, dass das SageMaker HyperPod Observability-Add-on aufgeführt ist und dass sein Status AKTIV ist.

  5. Wenn der Status nicht ACTIVE ist, siehe Behebung von Fehlern bei der Installation von Add-ons.

Überprüfen Sie die Pod-Identity-Zuordnung

  1. Öffnen Sie die Amazon EKS-Konsole unter https://console.aws.amazon.com/eks/home#/clusters.

  2. Wählen Sie Ihren Cluster aus.

  3. Wählen Sie auf der Seite mit den Cluster-Details die Registerkarte Zugriff.

  4. Wählen Sie in der Tabelle mit den Pod-Identity-Zuordnungen die Zuordnung aus, die die folgenden Eigenschaftswerte hat:

    • Namespace: hyperpod-observability

    • Servicekonto: hyperpod-observability-operator-otel-collector

    • Add-on: amazon-sagemaker-hyperpod-observability

  5. Stellen Sie sicher, dass die IAM-Rolle, die dieser Zuordnung zugeordnet ist, über die folgenden Berechtigungen verfügt.

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:us-east-1:111122223333:workspace/workspace-ID" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }
  6. Stellen Sie sicher, dass für die IAM-Rolle, die dieser Zuordnung zugeordnet ist, die folgende Vertrauensrichtlinie definiert ist. Stellen Sie sicher, dass der Quell-ARN und das Quellkonto korrekt sind.

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Sid": "AllowEksAuthToAssumeRoleForPodIdentity", "Effect": "Allow", "Principal": { "Service": "pods.eks.amazonaws.com" }, "Action": [ "sts:AssumeRole", "sts:TagSession" ], "Condition": { "StringEquals": { "aws:SourceArn": "arn:aws:eks:us-east-1:111122223333:cluster/cluster-name", "aws:SourceAccount": "111122223333" } } } ] }

Überprüfen Sie die Drosselung von Prometheus bei Amazon Managed Service

  1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die Service Quotas Quotas-Konsole unter https://console.aws.amazon.com/servicequotas/.

  2. Suchen Sie im Feld Verwaltete Kontingente nach Amazon Managed Service for Prometheus und wählen Sie es aus.

  3. Wählen Sie das Kontingent der Active-Serie pro Workspace aus.

  4. Wählen Sie auf der Registerkarte Kontingente auf Ressourcenebene Ihren Workspace in Amazon Managed Service für Prometheus aus.

  5. Stellen Sie sicher, dass die Auslastung unter Ihrem aktuellen Kontingent liegt.

  6. Wenn du das Kontingentlimit erreicht hast, wähle deinen Workspace aus, indem du das Optionsfeld links davon auswählst und dann Erhöhung auf Ressourcenebene beantragen auswählst.

Stellen Sie sicher, dass KV-Caching und intelligentes Routing aktiviert sind

Wenn das KVCache Metrics Dashboard fehlt, ist die Funktion entweder nicht aktiviert oder der Port wird in der modelMetrics nicht erwähnt. Weitere Informationen zur Aktivierung finden Sie in den Schritten 1 und 3 unterKonfigurieren Sie KV-Caching und intelligentes Routing für eine verbesserte Leistung.

Wenn das Intelligent Router Metrics Dashboard fehlt, aktivieren Sie die Funktion, damit sie angezeigt werden. Weitere Informationen zur Aktivierung dieser Funktion finden Sie unterKonfigurieren Sie KV-Caching und intelligentes Routing für eine verbesserte Leistung.

Behebung von Fehlern bei der Installation von Add-ons

Wenn das Observability-Add-on nicht installiert werden kann, gehen Sie wie folgt vor, um das Problem zu diagnostizieren und zu beheben.

Überprüfen Sie den Status der Gesundheitsprüfung

  1. Öffnen Sie die Amazon EKS-Konsole unter https://console.aws.amazon.com/eks/home#/clusters.

  2. Wählen Sie Ihren Cluster aus.

  3. Wählen Sie die Registerkarte Add-ons.

  4. Wählen Sie das fehlgeschlagene Add-on aus.

  5. Lesen Sie den Abschnitt Gesundheitsprobleme.

  6. Wenn das Gesundheitsproblem mit Anmeldeinformationen oder der Pod-Identität zusammenhängt, finden Sie weitere Informationen unterÜberprüfen Sie die Pod-Identity-Zuordnung. Stellen Sie außerdem sicher, dass das Pod Identity Agent-Add-on im Cluster ausgeführt wird.

  7. Suchen Sie in den Manager-Protokollen nach Fehlern. Detaillierte Anweisungen finden Sie unter Überprüfen von Manager-Protokollen.

  8. Wenden Sie sich mit den Problemdetails an den AWS Support.

Überprüfen von Manager-Protokollen

  1. Holen Sie sich den Add-On-Manager-Pod:

    kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager
  2. Bei dringenden Problemen wenden Sie sich anSupport.

Überprüfen Sie alle Observability-Pods

Alle Pods, die das SageMaker HyperPod Observability-Add-on erstellt, befinden sich im hyperpod-observability Namespace. Um den Status dieser Pods abzurufen, führen Sie den folgenden Befehl aus.

kubectl get pods -n hyperpod-observability

Suchen Sie nach den Pods, deren Status entweder oder ist. pending crashloopbackoff Führen Sie den folgenden Befehl aus, um die Protokolle dieser ausstehenden oder fehlgeschlagenen Pods abzurufen.

kubectl logs -n hyperpod-observability pod-name

Wenn Sie in den Protokollen keine Fehler finden, führen Sie den folgenden Befehl aus, um die Pods zu beschreiben und nach Fehlern zu suchen.

kubectl describe -n hyperpod-observability pod pod-name

Um mehr Kontext zu erhalten, führen Sie die beiden folgenden Befehle aus, um die Bereitstellungen und Daemonsets für diese Pods zu beschreiben.

kubectl describe -n hyperpod-observability deployment deployment-name
kubectl describe -n hyperpod-observability daemonset daemonset-name

Problembehandlung bei Pods, die im Status „Ausstehend“ hängen bleiben

Wenn Sie feststellen, dass Pods mit dem pending Status „hängengeblieben“ sind, stellen Sie sicher, dass der Knoten groß genug ist, um in alle Pods zu passen. Führen Sie die folgenden Schritte aus, um zu überprüfen, ob dies der Fall ist.

  1. Öffnen Sie die Amazon EKS-Konsole unter https://console.aws.amazon.com/eks/home#/clusters.

  2. Wählen Sie Ihren Cluster aus.

  3. Wählen Sie die Registerkarte Compute des Clusters aus.

  4. Wählen Sie den Knoten mit dem kleinsten Instance-Typ aus.

  5. Suchen Sie im Bereich Kapazitätszuweisung nach verfügbaren Pods.

  6. Wenn keine Pods verfügbar sind, benötigen Sie einen größeren Instance-Typ.

Bei dringenden Problemen wenden Sie sich anAWS Support.