

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Problemi di distribuzione del modello
<a name="sagemaker-hyperpod-model-deployment-ts-deployment-issues"></a>

**Panoramica:** questa sezione descrive i problemi più comuni che si verificano durante la distribuzione del modello, inclusi gli stati in sospeso, le distribuzioni non riuscite e il monitoraggio dell'avanzamento della distribuzione.

## Distribuzione del modello bloccata in stato di sospeso
<a name="sagemaker-hyperpod-model-deployment-ts-pending"></a>

Quando si distribuisce un modello, la distribuzione rimane nello stato «In sospeso» per un periodo prolungato. Ciò indica che l'operatore di inferenza non è in grado di avviare la distribuzione del modello nel cluster. HyperPod 

**Componenti interessati:**

Durante la normale implementazione, l'operatore di inferenza deve:
+ Implementare un pod modello
+ Creazione di un sistema di bilanciamento del carico
+ Crea un SageMaker endpoint AI

**Fasi di risoluzione dei problemi:**

1. Controlla lo stato del pod dell'operatore di inferenza:

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   Esempio di output previsto:

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. Esamina i registri degli operatori di inferenza ed esamina i registri degli operatori per verificare la presenza di messaggi di errore:

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**Cosa cercare:**
+ Messaggi di errore nei registri degli operatori
+ Stato del pod dell'operatore
+ Eventuali avvisi o guasti relativi all'implementazione

**Nota**  
Una distribuzione efficace dovrebbe superare lo stato «In sospeso» entro un periodo di tempo ragionevole. Se i problemi persistono, esamina i registri degli operatori di inferenza per individuare messaggi di errore specifici per determinare la causa principale.

## Risoluzione dei problemi relativi allo stato di distribuzione del modello
<a name="sagemaker-hyperpod-model-deployment-ts-failed"></a>

Quando l'implementazione di un modello entra in uno stato «Non riuscito», l'errore può verificarsi in uno dei tre componenti:
+ Implementazione del modello pod
+ Creazione di sistemi di bilanciamento del carico
+ SageMaker Creazione di endpoint AI

**Fasi di risoluzione dei problemi:**

1. Controlla lo stato dell'operatore di inferenza:

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   Output previsto:

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. Esamina i registri dell'operatore:

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**Cosa cercare:**

I registri dell'operatore indicheranno quale componente è guasto:
+ Errori di distribuzione del pod del modello
+ Problemi di creazione del sistema di bilanciamento del carico
+ SageMaker Errori degli endpoint AI

## Verifica dell'avanzamento dell'implementazione del modello
<a name="sagemaker-hyperpod-model-deployment-ts-progress"></a>

Per monitorare l'avanzamento della distribuzione del modello e identificare potenziali problemi, è possibile utilizzare i comandi kubectl per controllare lo stato dei vari componenti. Questo aiuta a determinare se l'implementazione sta procedendo normalmente o se ha riscontrato problemi durante la creazione del pod modello, la configurazione del load balancer o SageMaker le fasi di configurazione degli endpoint AI.

**Metodo 1: verifica dello stato del modello JumpStart **

```
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
```

**Principali indicatori di stato da monitorare:**

1. Stato dell'implementazione
   + Cerca`Status.State`: Dovrebbe mostrare `DeploymentComplete`
   + Controlla `Status.Deployment Status.Available Replicas`
   + Monitora `Status.Conditions` l'avanzamento dell'implementazione

1. SageMaker Stato dell'endpoint AI
   + Verifica`Status.Endpoints.Sagemaker.State`: dovrebbe apparire `CreationCompleted`
   + Verifica `Status.Endpoints.Sagemaker.Endpoint Arn`

1. Stato del certificato TLS
   + Visualizza dettagli `Status.Tls Certificate`
   + Verifica la scadenza del certificato in `Last Cert Expiry Time`

**Metodo 2: verifica la configurazione dell'endpoint di inferenza**

```
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
```

**Stati di stato comuni:**
+ `DeploymentInProgress`: Fase iniziale di implementazione
+ `DeploymentComplete`: Implementazione riuscita
+ `Failed`: distribuzione non riuscita

**Nota**  
Monitora la sezione Eventi per eventuali avvisi o errori. Verifica che il numero di repliche corrisponda alla configurazione prevista. Verifica tutte le condizioni indicate `Status: True` per una distribuzione corretta.