Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Problemi di distribuzione del modello
Panoramica: questa sezione descrive i problemi più comuni che si verificano durante la distribuzione del modello, inclusi gli stati in sospeso, le distribuzioni non riuscite e il monitoraggio dell'avanzamento della distribuzione.
Distribuzione del modello bloccata in stato di sospeso
Quando si distribuisce un modello, la distribuzione rimane nello stato «In sospeso» per un periodo prolungato. Ciò indica che l'operatore di inferenza non è in grado di avviare la distribuzione del modello nel cluster. HyperPod
Componenti interessati:
Durante la normale implementazione, l'operatore di inferenza deve:
-
Implementare un pod modello
-
Creazione di un sistema di bilanciamento del carico
-
Crea un SageMaker endpoint AI
Fasi di risoluzione dei problemi:
-
Controlla lo stato del pod dell'operatore di inferenza:
kubectl get pods -n hyperpod-inference-systemEsempio di output previsto:
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
Esamina i registri degli operatori di inferenza ed esamina i registri degli operatori per verificare la presenza di messaggi di errore:
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
Cosa cercare:
-
Messaggi di errore nei registri degli operatori
-
Stato del pod dell'operatore
-
Eventuali avvisi o guasti relativi all'implementazione
Nota
Una distribuzione efficace dovrebbe superare lo stato «In sospeso» entro un periodo di tempo ragionevole. Se i problemi persistono, esamina i registri degli operatori di inferenza per individuare messaggi di errore specifici per determinare la causa principale.
Risoluzione dei problemi relativi allo stato di distribuzione del modello
Quando l'implementazione di un modello entra in uno stato «Non riuscito», l'errore può verificarsi in uno dei tre componenti:
-
Implementazione del modello pod
-
Creazione di sistemi di bilanciamento del carico
-
SageMaker Creazione di endpoint AI
Fasi di risoluzione dei problemi:
-
Controlla lo stato dell'operatore di inferenza:
kubectl get pods -n hyperpod-inference-systemOutput previsto:
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
Esamina i registri dell'operatore:
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
Cosa cercare:
I registri dell'operatore indicheranno quale componente è guasto:
-
Errori di distribuzione del pod del modello
-
Problemi di creazione del sistema di bilanciamento del carico
-
SageMaker Errori degli endpoint AI
Verifica dell'avanzamento dell'implementazione del modello
Per monitorare l'avanzamento della distribuzione del modello e identificare potenziali problemi, è possibile utilizzare i comandi kubectl per controllare lo stato dei vari componenti. Questo aiuta a determinare se l'implementazione sta procedendo normalmente o se ha riscontrato problemi durante la creazione del pod modello, la configurazione del load balancer o SageMaker le fasi di configurazione degli endpoint AI.
Metodo 1: verifica dello stato del modello JumpStart
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
Principali indicatori di stato da monitorare:
-
Stato dell'implementazione
-
Cerca
Status.State: Dovrebbe mostrareDeploymentComplete -
Controlla
Status.Deployment Status.Available Replicas -
Monitora
Status.Conditionsl'avanzamento dell'implementazione
-
-
SageMaker Stato dell'endpoint AI
-
Verifica
Status.Endpoints.Sagemaker.State: dovrebbe apparireCreationCompleted -
Verifica
Status.Endpoints.Sagemaker.Endpoint Arn
-
-
Stato del certificato TLS
-
Visualizza dettagli
Status.Tls Certificate -
Verifica la scadenza del certificato in
Last Cert Expiry Time
-
Metodo 2: verifica la configurazione dell'endpoint di inferenza
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
Stati di stato comuni:
-
DeploymentInProgress: Fase iniziale di implementazione -
DeploymentComplete: Implementazione riuscita -
Failed: distribuzione non riuscita
Nota
Monitora la sezione Eventi per eventuali avvisi o errori. Verifica che il numero di repliche corrisponda alla configurazione prevista. Verifica tutte le condizioni indicate Status:
True per una distribuzione corretta.