View a markdown version of this page

Problemi di distribuzione del modello - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Problemi di distribuzione del modello

Panoramica: questa sezione descrive i problemi più comuni che si verificano durante la distribuzione del modello, inclusi gli stati in sospeso, le distribuzioni non riuscite e il monitoraggio dell'avanzamento della distribuzione.

Distribuzione del modello bloccata in stato di sospeso

Quando si distribuisce un modello, la distribuzione rimane nello stato «In sospeso» per un periodo prolungato. Ciò indica che l'operatore di inferenza non è in grado di avviare la distribuzione del modello nel cluster. HyperPod

Componenti interessati:

Durante la normale implementazione, l'operatore di inferenza deve:

  • Implementare un pod modello

  • Creazione di un sistema di bilanciamento del carico

  • Crea un SageMaker endpoint AI

Fasi di risoluzione dei problemi:

  1. Controlla lo stato del pod dell'operatore di inferenza:

    kubectl get pods -n hyperpod-inference-system

    Esempio di output previsto:

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. Esamina i registri degli operatori di inferenza ed esamina i registri degli operatori per verificare la presenza di messaggi di errore:

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

Cosa cercare:

  • Messaggi di errore nei registri degli operatori

  • Stato del pod dell'operatore

  • Eventuali avvisi o guasti relativi all'implementazione

Nota

Una distribuzione efficace dovrebbe superare lo stato «In sospeso» entro un periodo di tempo ragionevole. Se i problemi persistono, esamina i registri degli operatori di inferenza per individuare messaggi di errore specifici per determinare la causa principale.

Risoluzione dei problemi relativi allo stato di distribuzione del modello

Quando l'implementazione di un modello entra in uno stato «Non riuscito», l'errore può verificarsi in uno dei tre componenti:

  • Implementazione del modello pod

  • Creazione di sistemi di bilanciamento del carico

  • SageMaker Creazione di endpoint AI

Fasi di risoluzione dei problemi:

  1. Controlla lo stato dell'operatore di inferenza:

    kubectl get pods -n hyperpod-inference-system

    Output previsto:

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. Esamina i registri dell'operatore:

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

Cosa cercare:

I registri dell'operatore indicheranno quale componente è guasto:

  • Errori di distribuzione del pod del modello

  • Problemi di creazione del sistema di bilanciamento del carico

  • SageMaker Errori degli endpoint AI

Verifica dell'avanzamento dell'implementazione del modello

Per monitorare l'avanzamento della distribuzione del modello e identificare potenziali problemi, è possibile utilizzare i comandi kubectl per controllare lo stato dei vari componenti. Questo aiuta a determinare se l'implementazione sta procedendo normalmente o se ha riscontrato problemi durante la creazione del pod modello, la configurazione del load balancer o SageMaker le fasi di configurazione degli endpoint AI.

Metodo 1: verifica dello stato del modello JumpStart

kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>

Principali indicatori di stato da monitorare:

  1. Stato dell'implementazione

    • CercaStatus.State: Dovrebbe mostrare DeploymentComplete

    • Controlla Status.Deployment Status.Available Replicas

    • Monitora Status.Conditions l'avanzamento dell'implementazione

  2. SageMaker Stato dell'endpoint AI

    • VerificaStatus.Endpoints.Sagemaker.State: dovrebbe apparire CreationCompleted

    • Verifica Status.Endpoints.Sagemaker.Endpoint Arn

  3. Stato del certificato TLS

    • Visualizza dettagli Status.Tls Certificate

    • Verifica la scadenza del certificato in Last Cert Expiry Time

Metodo 2: verifica la configurazione dell'endpoint di inferenza

kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>

Stati di stato comuni:

  • DeploymentInProgress: Fase iniziale di implementazione

  • DeploymentComplete: Implementazione riuscita

  • Failed: distribuzione non riuscita

Nota

Monitora la sezione Eventi per eventuali avvisi o errori. Verifica che il numero di repliche corrisponda alla configurazione prevista. Verifica tutte le condizioni indicate Status: True per una distribuzione corretta.