Fehlerbehebung - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Fehlerbehebung

Im folgenden Abschnitt werden Lösungen zur Fehlerbehebung für HyperPod in Studio aufgeführt.

Registerkarte „Aufgaben“

Wenn Sie erhalten, dass Custom Resource Definition (CRD) auf dem Cluster nicht konfiguriert ist, während Sie sich auf der Registerkarte Aufgaben befinden.

  • Gewähren Ihrer Domain-Ausführungsrolle die entsprechenden EKSAdminViewPolicy- und ClusterAccessRole-Richtlinien.

    Weitere Informationen zum Hinzufügen von Tags zu Ihrer Ausführungsrolle finden Sie unter Tag-IAM-Rollen.

    Informationen zum Hinzufügen von Richtlinien zu einem IAM-Benutzer oder einer IAM-Gruppe finden Sie unter Hinzufügen und Entfernen von IAM-Identitätsberechtigungen.

Wenn das Aufgabenraster für Slurm-Metriken auf der Registerkarte „Aufgaben“ nicht aufhört zu laden.

Für die eingeschränkte Aufgabenansicht in Studio für EKS-Cluster:

  • Wenn Ihre Ausführungsrolle nicht berechtigt ist, NameBereiche für EKS-Cluster aufzulisten.

  • Wenn Benutzer Probleme mit dem Zugriff auf EKS-Cluster haben.

    1. Stellen Sie sicher, dass RBAC aktiviert ist, indem Sie den folgenden AWS CLI Befehl ausführen.

      kubectl api-versions | grep rbac

      Dies sollte rbac.authorization.k8s.io/v1 zurückgeben.

    2. Überprüfen Sie, ob und existieren, indem Sie die folgenden Befehle ausführen. ClusterRole ClusterRoleBinding

      kubectl get clusterrole pods-events-crd-cluster-role kubectl get clusterrolebinding pods-events-crd-cluster-role-binding
    3. Überprüfen Sie die Mitgliedschaft in der Benutzergruppe. Stellen Sie sicher, dass der Benutzer der pods-events-crd-cluster-level Gruppe in Ihrem Identitätsanbieter oder IAM korrekt zugewiesen ist.

  • Wenn der Benutzer keine Ressourcen sehen kann.

    • Überprüfen Sie die Gruppenmitgliedschaft und stellen Sie sicher, dass das ClusterRoleBinding korrekt angewendet wurde.

  • Wenn Benutzer Ressourcen in allen NameBereiche sehen können.

    • Wenn eine Namespace-Beschränkung erforderlich ist, sollten Sie und anstelle von Role und RoleBinding verwenden. ClusterRole ClusterRoleBinding

  • Wenn die Konfiguration korrekt erscheint, die Berechtigungen jedoch nicht angewendet werden.

    • Prüfen Sie, ob es irgendwelche gibt NetworkPolicies oder den Zugriff PodSecurityPolicies behindern.

Registerkarte „Metriken“

Wenn keine CloudWatch Amazon-Metriken vorhanden sind, werden sie auf der Registerkarte Metriken angezeigt.

  • Der Metrics Abschnitt mit den HyperPod Cluster-Details wird CloudWatch zum Abrufen der Daten verwendet. Um die Metriken in diesem Abschnitt sehen zu können, müssen Sie aktiviert habenBeobachtbarkeit von Clustern und Aufgaben. Wenden Sie sich an Ihren Administrator, um Metriken zu konfigurieren.