Distribuzione del modello bloccata in stato di sospeso Risoluzione dei problemi relativi allo stato di distribuzione del modello Verifica dell'avanzamento dell'implementazione del modello

Problemi di distribuzione del modello

Panoramica: questa sezione descrive i problemi più comuni che si verificano durante la distribuzione del modello, inclusi gli stati in sospeso, le distribuzioni non riuscite e il monitoraggio dell'avanzamento della distribuzione.

Distribuzione del modello bloccata in stato di sospeso

Quando si distribuisce un modello, la distribuzione rimane nello stato «In sospeso» per un periodo prolungato. Ciò indica che l'operatore di inferenza non è in grado di avviare la distribuzione del modello nel cluster. HyperPod

Componenti interessati:

Durante la normale implementazione, l'operatore di inferenza deve:

Implementare un pod modello
Creazione di un sistema di bilanciamento del carico
Crea un SageMaker endpoint AI

Fasi di risoluzione dei problemi:

Controlla lo stato del pod dell'operatore di inferenza:


kubectl get pods -n hyperpod-inference-system

Esempio di output previsto:


NAME                                                           READY   STATUS    RESTARTS   AGE
hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h

Esamina i registri degli operatori di inferenza ed esamina i registri degli operatori per verificare la presenza di messaggi di errore:
```
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
```

Cosa cercare:

Messaggi di errore nei registri degli operatori
Stato del pod dell'operatore
Eventuali avvisi o guasti relativi all'implementazione

Nota

Una distribuzione efficace dovrebbe superare lo stato «In sospeso» entro un periodo di tempo ragionevole. Se i problemi persistono, esamina i registri degli operatori di inferenza per individuare messaggi di errore specifici per determinare la causa principale.

Risoluzione dei problemi relativi allo stato di distribuzione del modello

Quando l'implementazione di un modello entra in uno stato «Non riuscito», l'errore può verificarsi in uno dei tre componenti:

Implementazione del modello pod
Creazione di sistemi di bilanciamento del carico
SageMaker Creazione di endpoint AI

Fasi di risoluzione dei problemi:

Controlla lo stato dell'operatore di inferenza:


kubectl get pods -n hyperpod-inference-system

Output previsto:


NAME                                                           READY   STATUS    RESTARTS   AGE
hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h

Esamina i registri dell'operatore:


kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

Cosa cercare:

I registri dell'operatore indicheranno quale componente è guasto:

Errori di distribuzione del pod del modello
Problemi di creazione del sistema di bilanciamento del carico
SageMaker Errori degli endpoint AI

Verifica dell'avanzamento dell'implementazione del modello

Per monitorare l'avanzamento della distribuzione del modello e identificare potenziali problemi, è possibile utilizzare i comandi kubectl per controllare lo stato dei vari componenti. Questo aiuta a determinare se l'implementazione sta procedendo normalmente o se ha riscontrato problemi durante la creazione del pod modello, la configurazione del load balancer o SageMaker le fasi di configurazione degli endpoint AI.

Metodo 1: verifica dello stato del modello JumpStart


kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>

Principali indicatori di stato da monitorare:

Stato dell'implementazione
- CercaStatus.State: Dovrebbe mostrare DeploymentComplete
- Controlla Status.Deployment Status.Available Replicas
- Monitora Status.Conditions l'avanzamento dell'implementazione
SageMaker Stato dell'endpoint AI
- VerificaStatus.Endpoints.Sagemaker.State: dovrebbe apparire CreationCompleted
- Verifica Status.Endpoints.Sagemaker.Endpoint Arn
Stato del certificato TLS
- Visualizza dettagli Status.Tls Certificate
- Verifica la scadenza del certificato in Last Cert Expiry Time

Metodo 2: verifica la configurazione dell'endpoint di inferenza


kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>

Stati di stato comuni:

DeploymentInProgress: Fase iniziale di implementazione
DeploymentComplete: Implementazione riuscita
Failed: distribuzione non riuscita

Nota

Monitora la sezione Eventi per eventuali avvisi o errori. Verifica che il numero di repliche corrisponda alla configurazione prevista. Verifica tutte le condizioni indicate Status: True per una distribuzione corretta.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Timeout per il download del certificato

Rilascio dell'autorizzazione VPC ENI