Die Modellbereitstellung blieb im Status „Ausstehend“ hängen Die Modellbereitstellung ist fehlgeschlagen, Status „Fehlerbehebung“Überprüfung des Fortschritts der Modellbereitstellung

Probleme bei der Modellbereitstellung

Überblick: In diesem Abschnitt werden häufig auftretende Probleme behandelt, die bei der Modellbereitstellung auftreten, darunter ausstehende Zustände, fehlgeschlagene Bereitstellungen und die Überwachung des Bereitstellungsfortschritts.

Die Modellbereitstellung blieb im Status „Ausstehend“ hängen

Bei der Bereitstellung eines Modells verbleibt die Bereitstellung über einen längeren Zeitraum im Status „Ausstehend“. Dies weist darauf hin, dass der Inferenzoperator die Modellbereitstellung in Ihrem HyperPod Cluster nicht initiieren kann.

Betroffene Komponenten:

Während der normalen Bereitstellung sollte der Inferenzoperator:

Model Pod bereitstellen
Einen Load Balancer erstellen
SageMaker KI-Endpunkt erstellen

Schritte zur Fehlerbehebung:

Überprüfen Sie den Pod-Status des Inferenz-Operators:


kubectl get pods -n hyperpod-inference-system

Beispiel für eine erwartete Ausgabe:


NAME                                                           READY   STATUS    RESTARTS   AGE
hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h

Überprüfen Sie die Protokolle der Inferenzoperatoren und überprüfen Sie die Operatorprotokolle auf Fehlermeldungen:
```
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
```

Worauf Sie achten sollten:

Fehlermeldungen in den Bedienerprotokollen
Status des Bediener-Pods
Alle Warnungen oder Fehler im Zusammenhang mit der Bereitstellung

Anmerkung

Bei einer fehlerfreien Bereitstellung sollte der Status „Ausstehend“ innerhalb eines angemessenen Zeitraums überschritten werden. Falls die Probleme weiterhin bestehen, überprüfen Sie die Protokolle der Inferenzoperatoren auf spezifische Fehlermeldungen, um die Ursache zu ermitteln.

Die Modellbereitstellung ist fehlgeschlagen, Status „Fehlerbehebung“

Wenn eine Modellbereitstellung in den Status „Fehlgeschlagen“ übergeht, kann der Fehler in einer von drei Komponenten auftreten:

Bereitstellung eines Modell-Pods
Erstellung eines Load Balancers
SageMaker Erstellung von KI-Endpunkten

Schritte zur Fehlerbehebung:

Überprüfen Sie den Status des Inferenzoperators:


kubectl get pods -n hyperpod-inference-system

Erwartete Ausgabe:


NAME                                                           READY   STATUS    RESTARTS   AGE
hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h

Überprüfen Sie die Operatorprotokolle:


kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

Worauf Sie achten sollten:

In den Benutzerprotokollen wird angegeben, welche Komponente ausgefallen ist:

Fehler bei der Bereitstellung des Modell-Pods
Probleme bei der Erstellung des Load Balancers
SageMaker Fehler an KI-Endpunkten

Überprüfung des Fortschritts der Modellbereitstellung

Um den Fortschritt Ihrer Modellbereitstellung zu überwachen und potenzielle Probleme zu identifizieren, können Sie kubectl-Befehle verwenden, um den Status verschiedener Komponenten zu überprüfen. Auf diese Weise können Sie feststellen, ob die Bereitstellung normal verläuft oder ob bei der Erstellung des Modell-Pods, beim Load Balancer-Setup oder bei der Konfiguration der SageMaker KI-Endgeräte Probleme aufgetreten sind.

Methode 1: Überprüfen Sie den Modellstatus JumpStart


kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>

Wichtige zu überwachende Statusindikatoren:

Bereitstellungsstatus
- Suchen Sie nachStatus.State: Sollte angezeigt werden DeploymentComplete
- Prüfen Status.Deployment Status.Available Replicas
- Überwachen Sie Status.Conditions den Fortschritt der Bereitstellung
SageMaker Status des KI-Endpunkts
- PrüfenStatus.Endpoints.Sagemaker.State: Sollte angezeigt werden CreationCompleted
- Verifizieren Status.Endpoints.Sagemaker.Endpoint Arn
Status des TLS-Zertifikats
- Status.Tls CertificateEinzelheiten anzeigen
- Überprüfen Sie den Ablauf des Zertifikats in Last Cert Expiry Time

Methode 2: Überprüfen Sie die Konfiguration des Inferenzendpunkts


kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>

Allgemeine Statuszustände:

DeploymentInProgress: Erste Bereitstellungsphase
DeploymentComplete: Erfolgreiche Bereitstellung
Failed: Die Bereitstellung ist fehlgeschlagen

Anmerkung

Überwachen Sie den Abschnitt Ereignisse auf Warnungen oder Fehler. Prüfen Sie, ob die Anzahl der Replikate der erwarteten Konfiguration entspricht. Stellen Sie sicher, dass alle Bedingungen Status: True für eine fehlerfreie Bereitstellung vorliegen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Timeout beim Herunterladen von Zertifikaten

Problem mit der VPC-ENI-Berechtigung