Fehlerbehebung - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Fehlerbehebung

Wichtig

Seit dem 30. November 2023 heißt das vorherige Amazon SageMaker Studio-Erlebnis jetzt Amazon SageMaker Studio Classic. Der folgende Abschnitt bezieht sich auf die Verwendung der aktualisierten Studio-Erfahrung. Informationen zur Verwendung der Studio-Classic-Anwendung finden Sie unter Amazon SageMaker Studio Classic.

Wichtig

Benutzerdefinierte IAM-Richtlinien, die es Amazon SageMaker Studio oder Amazon SageMaker Studio Classic ermöglichen, SageMaker Amazon-Ressourcen zu erstellen, müssen auch Berechtigungen zum Hinzufügen von Tags zu diesen Ressourcen gewähren. Die Berechtigung zum Hinzufügen von Tags zu Ressourcen ist erforderlich, da Studio und Studio Classic automatisch alle von ihnen erstellten Ressourcen taggen. Wenn eine IAM-Richtlinie Studio und Studio Classic das Erstellen von Ressourcen, aber kein Tagging erlaubt, können "AccessDenied" Fehler beim Versuch, Ressourcen zu erstellen, auftreten. Weitere Informationen finden Sie unter Erteilen Sie Berechtigungen für das Taggen von SageMaker KI-Ressourcen.

AWSverwaltete Richtlinien für Amazon SageMaker AIdie Berechtigungen zum Erstellen von SageMaker Ressourcen gewähren, beinhalten bereits Berechtigungen zum Hinzufügen von Tags beim Erstellen dieser Ressourcen.

In diesem Abschnitt wird gezeigt, wie Sie häufig auftretende Probleme in Amazon SageMaker Studio beheben können.

Wiederherstellungsmodus

Im Wiederherstellungsmodus können Sie auf Ihre Studio-Anwendung zugreifen, wenn ein Konfigurationsproblem den normalen Start verhindert. Es bietet eine vereinfachte Umgebung mit grundlegenden Funktionen, die Ihnen bei der Diagnose und Behebung des Problems behilflich sind.

Wenn eine Anwendung nicht gestartet werden kann, wird möglicherweise eine Fehlermeldung angezeigt, die Sie auffordert, den Wiederherstellungsmodus aufzurufen, um eines der folgenden Konfigurationsprobleme zu beheben.

  • Die .condarc-Datei ist beschädigt.

    Informationen zur Problembehebung Ihrer .condarc-Datei finden Sie auf der Seite zur Fehlerbehebung im Conda-Benutzerhandbuch.

  • Es ist nicht genügend Speicher-Volume verfügbar.

    Sie können den für die Anwendung verfügbaren Amazon EBS-Speicherplatz erhöhen oder den Wiederherstellungsmodus aufrufen, um nicht mehr benötigte Daten zu entfernen.

    Informationen zur Erhöhung der Größe des Amazon-EBS-Volumes finden Sie unter Kontingentgröße anfordern im Entwicklerhandbuch für Service Quotas.

Im Wiederherstellungsmodus:

  • Ihr Home-Verzeichnis unterscheidet sich von Ihrem normalen Startverzeichnis. Dieses Verzeichnis ist temporär und stellt sicher, dass beschädigte Konfigurationen in Ihrem Standard-Home-Verzeichnis keinen Einfluss auf Ihre Vorgänge im Wiederherstellungsmodus haben. Sie können mit dem Befehl cd /home/sagemaker-user zu Ihrem Standard-Home-Verzeichnis navigieren.

    • Standardmodus: /home/sagemaker-user

    • Wiederherstellungsmodus: /tmp/sagemaker-recovery-mode-home

  • Die Conda-Umgebung verwendet eine minimale Basis-Conda-Umgebung, die nur die wesentlichen Pakete enthält. Die vereinfachte Conda-Einrichtung unterstützt die Isolierung von umgebungsbezogenen Problemen und bietet grundlegende Funktionen zur Fehlerbehebung.

Sie können die Studio-Benutzeroberfläche oder die verwendenAWS CLI, um im Wiederherstellungsmodus auf die Anwendung zuzugreifen.

Im Folgenden finden Sie Anweisungen für den Zugriff auf Ihre Anwendung im Wiederherstellungsmodus.

  1. Sofern noch nicht geschehen, starten Sie die Studio-Benutzeroberfläche, indem Sie den Anweisungen unter Von der Amazon SageMaker AI-Konsole aus starten folgen.

  2. Wählen Sie im linken Navigationsmenü unter Anwendungen die Anwendung aus.

  3. Wählen Sie den Bereich aus, bei dem Sie Konfigurationsprobleme haben.

    Die folgenden Schritte stehen Ihnen zur Verfügung, wenn Sie eines oder mehrere der zuvor genannten Konfigurationsprobleme haben. In diesem Fall werden ein Warnbanner und eine Meldung zum Wiederherstellungsmodus angezeigt.

    Anmerkung

    Das Warnbanner sollte eine empfohlene Lösung für das Problem enthalten. Nehmen Sie es zur Kenntnis, bevor Sie fortfahren.

  4. Wählen Sie Bereich ausführen (Wiederherstellungsmodus) aus.

  5. Um im Wiederherstellungsmodus auf Ihre Anwendung zuzugreifen, wählen Sie Öffnen application (Wiederherstellungsmodus).

Um im Wiederherstellungsmodus auf Ihre Anwendung zuzugreifen, müssen Sie dies --recovery-mode an Ihren Befehl AWS CLIcreate-app anhängen. Im Folgenden finden Sie ein Beispiel dafür, wie Sie auf Ihre Anwendung im Wiederherstellungsmodus zugreifen.

Für das folgende Beispiel benötigen Sie:

Access Code Editor application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type CodeEditor \ --domain-id domain-id \ --space-name space-name \ --recovery-mode
Access JupyterLab application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type JupyterLab \ --domain-id domain-id \ --space-name space-name \ --recovery-mode

Der Code-Editor oder die Anwendung können nicht gelöscht werden JupyterLab

Dieses Problem tritt auf, wenn ein Benutzer eine Anwendung in Amazon SageMaker Studio erstellt, die nur in Studio verfügbar ist, und dann seine Standarderfahrung auf Studio Classic zurücksetzt. Daher kann der Benutzer keine Anwendung für den Code-Editor löschen, die auf Code-OSS, Visual Studio Code — Open Source oder, weil er nicht auf die Studio-Benutzeroberfläche zugreifen kann JupyterLab, basiert.

Um dieses Problem zu beheben, benachrichtigen Sie Ihren Administrator, damit er die Anwendung manuell mit dem AWS Command Line Interface () AWS CLI löschen kann.

EC2InsufficientCapacityError

Dieses Problem tritt auf, wenn Sie versuchen, einen Space zu betreiben und derzeit AWS nicht genügend On-Demand-Kapazität verfügbar ist, um Ihre Anfrage zu bearbeiten.

Gehen Sie wie folgt vor, um dieses Problem zu beheben.

  • Warten Sie einige Minuten und senden Sie Ihre Anfrage erneut. Die Kapazität kann häufig wechseln.

  • Führen Sie den Bereich mit einer anderen Instance-Größe oder einem anderen Instance-Typ aus.

Anmerkung

Kapazität ist in verschiedenen Availability Zones verfügbar. Um die Kapazitätsverfügbarkeit für Benutzer zu maximieren, empfehlen wir, Subnetze in allen Availability Zones einzurichten. Studio versucht erneut, alle verfügbaren Availability Zones für die Domain zu überprüfen.

Die Verfügbarkeit des Instance-Typs ist je nach Region unterschiedlich. Eine Liste der unterstützten Instance-Typen pro Region finden Sie unter Amazon SageMaker AI (Preise)

In der folgenden Tabelle sind Instance-Familien und ihre empfohlenen Alternativen aufgeführt.

Instance-Familie CPU-Typ v CPUs Arbeitsspeicher (GiB) GPU-Typ GPUs GPU-Speicher (GiB) Empfohlene Alternative
G4dn Skalierbare Intel Xeon-Prozessoren der 2. Generation 4 bis 96 16 bis 384 NVIDIA T4 Tensor Core 1 bis 8 16 pro GPU G6
G5 AMD-EPYC-Prozessoren der 2. Generation 4 bis 192 16 bis 768 NVIDIA A10G Tensor Core 1 bis 8 24 pro GPU G6e
G6 AMD-EPYC-Prozessoren der 3. Generation 4 bis 192 16 bis 768 NVIDIA L4 Tensor Core 1 bis 8 24 pro GPU G4dn
G6e AMD-EPYC-Prozessoren der 3. Generation 4 bis 192 32 bis 1 536 NVIDIA L40S Tensor Core 1 bis 8 48 pro GPU G5, P4
P3 Skalierbare Intel-Xeon-Prozessoren 8 bis 96 61 bis 768 NVIDIA Tesla V100 1 bis 8 16 pro GPU (32 pro GPU für P3dn) G6e, P4
P4 Skalierbare Intel Xeon-Prozessoren der 2. Generation 96 1 152 NVIDIA A100 Tensor Core 8 320 (640 für P4de) G6e
P5 AMD-EPYC-Prozessoren der 3. Generation 192 2000 NVIDIA H100 Tensor Core 8 640 P4de

Unzureichendes Limit (Erhöhung des Kontingents erforderlich)

Dieses Problem tritt auf, wenn Sie beim Versuch, einen Bereich auszuführen, die folgende Fehlermeldung erhalten.

Error when creating application for space: ... : The account-level service limit is X Apps, with current utilization Y Apps and a request delta of 1 Apps. Please useService Quotasto request an increase for this quota.

Für jeden Instance-Typ gibt es ein Standardlimit für die Anzahl der Instances, die Sie in jeder AWS-Region ausführen können. Dieser Fehler bedeutet, dass Sie dieses Limit erreicht haben.

Um dieses Problem zu beheben, fordern Sie eine Erhöhung des Instance-Limits für den Space anAWS-Region, in dem Sie den Space starten. Weitere Informationen finden Sie unter Anfordern einer Kontingenterhöhung.

Benutzerdefiniertes Image konnte nicht geladen werden

Dieses Problem tritt auf, wenn ein SageMaker AI-Image gelöscht wird, bevor das Bild von Ihrer Domain getrennt wird. Dies wird angezeigt, wenn Sie die Registerkarte Umgebung für Ihre Domain aufrufen.

Um dieses Problem zu beheben, müssen Sie ein temporäres neues Image mit demselben Namen wie das gelöschte Image erstellen, das Image trennen und dann das temporäre Image löschen. Befolgen Sie die folgenden Anweisungen für eine Schritt-für-Schritt-Anleitung.

  1. Starten Sie die SageMaker AI-Konsole, falls Sie dies noch nicht getan haben.

  2. Wählen Sie im linken Navigationsmenü unter Admin-Konfigurationen die Option Domains aus.

  3. Wählen Sie Ihre Domain aus.

  4. Wählen Sie die Registerkarte Umgebung aus. Auf dieser Seite wird die Fehlermeldung angezeigt.

  5. Kopieren Sie den Image-Namen aus dem Image-ARN.

  6. Wählen Sie im linken Navigationsmenü unter Admin-Konfigurationen die Option Images aus.

  7. Wählen Sie Create Image (Image erstellen) aus.

  8. Folgen Sie den Schritten im Verfahren, stellen Sie jedoch sicher, dass Ihr Image-Name mit dem Image-Namen von oben übereinstimmt.

    Wenn Sie kein Image in einem Amazon-ECR-Verzeichnis haben, lesen Sie die Anweisungen unter Erstellen eines benutzerdefinierten Images und Übertragen auf Amazon ECR.

  9. Sobald Sie Ihr SageMaker KI-Image erstellt haben, kehren Sie zur Registerkarte Umgebung Ihrer Domain zurück. Sie werden sehen, dass das Bild an Ihre Domain angefügt ist.

  10. Wählen Sie das Image und dann die Option Trennen aus.

  11. Folgen Sie den Anweisungen, um das temporäre SageMaker AI-Image zu trennen und zu löschen.