Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Probleme bei der Modellbereitstellung
Überblick: In diesem Abschnitt werden häufig auftretende Probleme behandelt, die bei der Modellbereitstellung auftreten, darunter ausstehende Zustände, fehlgeschlagene Bereitstellungen und die Überwachung des Bereitstellungsfortschritts.
Die Modellbereitstellung blieb im Status „Ausstehend“ hängen
Bei der Bereitstellung eines Modells verbleibt die Bereitstellung über einen längeren Zeitraum im Status „Ausstehend“. Dies weist darauf hin, dass der Inferenzoperator die Modellbereitstellung in Ihrem HyperPod Cluster nicht initiieren kann.
Betroffene Komponenten:
Während der normalen Bereitstellung sollte der Inferenzoperator:
-
Model Pod bereitstellen
-
Einen Load Balancer erstellen
-
SageMaker KI-Endpunkt erstellen
Schritte zur Fehlerbehebung:
-
Überprüfen Sie den Pod-Status des Inferenz-Operators:
kubectl get pods -n hyperpod-inference-systemBeispiel für eine erwartete Ausgabe:
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
Überprüfen Sie die Protokolle der Inferenzoperatoren und überprüfen Sie die Operatorprotokolle auf Fehlermeldungen:
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
Worauf Sie achten sollten:
-
Fehlermeldungen in den Bedienerprotokollen
-
Status des Bediener-Pods
-
Alle Warnungen oder Fehler im Zusammenhang mit der Bereitstellung
Anmerkung
Bei einer fehlerfreien Bereitstellung sollte der Status „Ausstehend“ innerhalb eines angemessenen Zeitraums überschritten werden. Falls die Probleme weiterhin bestehen, überprüfen Sie die Protokolle der Inferenzoperatoren auf spezifische Fehlermeldungen, um die Ursache zu ermitteln.
Die Modellbereitstellung ist fehlgeschlagen, Status „Fehlerbehebung“
Wenn eine Modellbereitstellung in den Status „Fehlgeschlagen“ übergeht, kann der Fehler in einer von drei Komponenten auftreten:
-
Bereitstellung eines Modell-Pods
-
Erstellung eines Load Balancers
-
SageMaker Erstellung von KI-Endpunkten
Schritte zur Fehlerbehebung:
-
Überprüfen Sie den Status des Inferenzoperators:
kubectl get pods -n hyperpod-inference-systemErwartete Ausgabe:
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
Überprüfen Sie die Operatorprotokolle:
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
Worauf Sie achten sollten:
In den Benutzerprotokollen wird angegeben, welche Komponente ausgefallen ist:
-
Fehler bei der Bereitstellung des Modell-Pods
-
Probleme bei der Erstellung des Load Balancers
-
SageMaker Fehler an KI-Endpunkten
Überprüfung des Fortschritts der Modellbereitstellung
Um den Fortschritt Ihrer Modellbereitstellung zu überwachen und potenzielle Probleme zu identifizieren, können Sie kubectl-Befehle verwenden, um den Status verschiedener Komponenten zu überprüfen. Auf diese Weise können Sie feststellen, ob die Bereitstellung normal verläuft oder ob bei der Erstellung des Modell-Pods, beim Load Balancer-Setup oder bei der Konfiguration der SageMaker KI-Endgeräte Probleme aufgetreten sind.
Methode 1: Überprüfen Sie den Modellstatus JumpStart
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
Wichtige zu überwachende Statusindikatoren:
-
Bereitstellungsstatus
-
Suchen Sie nach
Status.State: Sollte angezeigt werdenDeploymentComplete -
Überprüfe
Status.Deployment Status.Available Replicas -
Überwachen Sie
Status.Conditionsden Fortschritt der Bereitstellung
-
-
SageMaker Status des KI-Endpunkts
-
Prüfen
Status.Endpoints.Sagemaker.State: Sollte angezeigt werdenCreationCompleted -
Verifizieren
Status.Endpoints.Sagemaker.Endpoint Arn
-
-
Status des TLS-Zertifikats
-
Status.Tls CertificateEinzelheiten anzeigen -
Überprüfen Sie den Ablauf des Zertifikats in
Last Cert Expiry Time
-
Methode 2: Überprüfen Sie die Konfiguration des Inferenzendpunkts
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
Allgemeine Statuszustände:
-
DeploymentInProgress: Erste Bereitstellungsphase -
DeploymentComplete: Erfolgreicher Einsatz -
Failed: Die Bereitstellung ist fehlgeschlagen
Anmerkung
Überwachen Sie den Abschnitt Ereignisse auf Warnungen oder Fehler. Prüfen Sie, ob die Anzahl der Replikate der erwarteten Konfiguration entspricht. Stellen Sie sicher, dass alle Bedingungen Status:
True für eine fehlerfreie Bereitstellung vorliegen.