Fehlerbehebung - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Fehlerbehebung

Die folgende Seite enthält bekannte Lösungen zur Fehlerbehebung bei Ihren HyperPod EKS-Clustern.

Registerkarte Dashboard

Die Installation des EKS-Add-ons ist fehlgeschlagen.

Damit die Installation des EKS-Add-ons erfolgreich ist, benötigen Sie eine Kubernets-Version >= 1.30. Informationen zum Update finden Sie unter Kubernetes-Version aktualisieren.

Damit die Installation des EKS-Add-ons erfolgreich ist, müssen sich alle Knoten im Status Bereit und alle Pods im Status Running befinden.

Um den Status Ihrer Knoten zu überprüfen, verwenden Sie den list-cluster-nodesAWS CLIBefehl oder navigieren Sie in der EKS-Konsole zu Ihrem EKS-Cluster und sehen Sie sich den Status Ihrer Knoten an. Beheben Sie das Problem für jeden Knoten oder wenden Sie sich an Ihren Administrator. Wenn der Knotenstatus Unbekannt ist, löschen Sie den Knoten. Sobald der Status aller Knoten „Bereit“ lautet, versuchen Sie erneut, das EKS-Add-on HyperPod von der Amazon SageMaker AI-Konsole aus zu installieren.

Um den Status Ihrer Pods zu überprüfen, verwenden Sie den Kubernetes-CLI-Befehl kubectl get pods -n cloudwatch-agent oder navigieren Sie in der EKS-Konsole zu Ihrem EKS-Cluster und sehen Sie sich den Status Ihrer Pods mit dem Namespace an. cloudwatch-agent Beheben Sie das Problem mit den Pods oder wenden Sie sich an Ihren Administrator, um das Problem zu lösen. Sobald alle Pod-Status „Wird ausgeführt“ lauten, versuchen Sie erneut, das EKS-Add-on HyperPod von der Amazon SageMaker AI-Konsole aus zu installieren.

Weitere Informationen zur Fehlerbehebung finden Sie unter Fehlerbehebung beim Amazon CloudWatch Observability EKS-Add-on.

Registerkarte „Aufgaben“

Wenn Ihnen die Fehlermeldung angezeigt wird, dass die benutzerdefinierte Ressourcendefinition (CRD) auf dem Cluster nicht konfiguriert ist, gewähren Sie Ihrer Domain-Ausführungsrolle Rechte EKSAdminViewPolicy und ClusterAccessRole Richtlinien.

Richtlinien

Im Folgenden werden Lösungen für Fehler im Zusammenhang mit Richtlinien aufgeführt, die die HyperPod APIs OR-Konsole verwenden.

  • Wenn sich die Richtlinie in CreateFailed oder im CreateRollbackFailed Status befindet, müssen Sie die fehlgeschlagene Richtlinie löschen und eine neue erstellen.

  • Wenn sich die Richtlinie im UpdateFailed Status befindet, wiederholen Sie das Update mit demselben Richtlinien-ARN.

  • Wenn die Richtlinie den UpdateRollbackFailed Status hat, müssen Sie die fehlgeschlagene Richtlinie löschen und anschließend eine neue erstellen.

  • Wenn sich die Richtlinie im DeleteRollbackFailed Status DeleteFailed oder befindet, versuchen Sie erneut, den Löschvorgang mit demselben Richtlinien-ARN ARN.

    • Wenn Sie beim Versuch, die Compute-Priorisierung oder Cluster-Richtlinie über die HyperPod Konsole zu löschen, auf einen Fehler gestoßen sind, versuchen Sie, diese cluster-scheduler-config mithilfe der API zu löschen. Um den Status der Ressource zu überprüfen, rufen Sie die Detailseite einer Rechenzuweisung auf.

Verwenden Sie die Describe-API, um weitere Informationen zu dem Fehler zu erhalten.

Löschen von Clustern

Im Folgenden sind bekannte Lösungen für Fehler im Zusammenhang mit dem Löschen von Clustern aufgeführt.

  • Wenn das Löschen des Clusters aufgrund der beigefügten SageMaker HyperPod Task-Governance-Richtlinien fehlschlägt, müssen Sie dies tunLöschen von Richtlinien.

  • Wenn das Löschen eines Clusters fehlschlägt, weil die folgenden Berechtigungen fehlen, müssen Sie die Mindestberechtigungen Ihres Clusteradministrators aktualisieren. Weitere Informationen finden Sie im IAM-Benutzer für den Clusteradministrator Abschnitt auf der Registerkarte Amazon EKS.

    • sagemaker:ListComputeQuotas

    • sagemaker:ListClusterSchedulerConfig

    • sagemaker:DeleteComputeQuota

    • sagemaker:DeleteClusterSchedulerConfig