Déploiement du modèle bloqué en attente Résolution des problèmes d'état d'échec du déploiement du modèle Vérification de la progression du déploiement du modèle

Problèmes liés au déploiement du modèle

Vue d'ensemble : cette section couvre les problèmes courants qui se produisent lors du déploiement du modèle, notamment les états en attente, les échecs de déploiement et le suivi de la progression du déploiement.

Déploiement du modèle bloqué en attente

Lors du déploiement d'un modèle, le déploiement reste dans l'état « En attente » pendant une période prolongée. Cela indique que l'opérateur d'inférence n'est pas en mesure de lancer le déploiement du modèle dans votre HyperPod cluster.

Composants concernés :

Lors d'un déploiement normal, l'opérateur d'inférence doit :

Déployer le modèle Pod
Création d'un équilibreur de charge
Créer un point de terminaison SageMaker AI

Étapes de résolution des problèmes :

Vérifiez l'état du module de l'opérateur d'inférence :


kubectl get pods -n hyperpod-inference-system

Exemple de sortie attendue :


NAME                                                           READY   STATUS    RESTARTS   AGE
hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h

Consultez les journaux des opérateurs d'inférence et examinez les journaux des opérateurs pour détecter les messages d'erreur :
```
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
```

Ce qu'il faut rechercher :

Messages d'erreur dans les journaux de l'opérateur
État du module opérateur
Tout avertissement ou échec lié au déploiement

Note

Un déploiement sain doit dépasser l'état « En attente » dans un délai raisonnable. Si les problèmes persistent, consultez les journaux des opérateurs d'inférence pour détecter les messages d'erreur spécifiques afin d'en déterminer la cause première.

Résolution des problèmes d'état d'échec du déploiement du modèle

Lorsqu'un déploiement de modèle passe à l'état « Échec », l'échec peut se produire dans l'un des trois composants suivants :

Déploiement du Model Pod
Création d'un équilibreur de charge
SageMaker Création de points de terminaison AI

Étapes de résolution des problèmes :

Vérifiez le statut de l'opérateur d'inférence :


kubectl get pods -n hyperpod-inference-system

Sortie attendue :


NAME                                                           READY   STATUS    RESTARTS   AGE
hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h

Consultez les journaux des opérateurs :


kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

Ce qu'il faut rechercher :

Les journaux de l'opérateur indiqueront quel composant a échoué :

Défaillances de déploiement du Model Pod
Problèmes de création d'un équilibreur de charge
SageMaker Erreurs liées aux terminaux AI

Vérification de la progression du déploiement du modèle

Pour suivre la progression du déploiement de votre modèle et identifier les problèmes potentiels, vous pouvez utiliser les commandes kubectl pour vérifier l'état des différents composants. Cela permet de déterminer si le déploiement progresse normalement ou s'il a rencontré des problèmes lors de la création du module de modélisation, de la configuration de l'équilibreur de charge ou des phases de configuration des terminaux SageMaker AI.

Méthode 1 : vérifier l'état du JumpStart modèle


kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>

Indicateurs de statut clés à surveiller :

Statut du déploiement
- Rechercher Status.State : Devrait montrer DeploymentComplete
- Vérifiez Status.Deployment Status.Available Replicas
- Surveiller Status.Conditions la progression du déploiement
SageMaker État du point de terminaison AI
- Vérifiez Status.Endpoints.Sagemaker.State : Devrait s'afficher CreationCompleted
- Vérifiez Status.Endpoints.Sagemaker.Endpoint Arn
État du certificat TLS
- Afficher les Status.Tls Certificate détails
- Vérifiez l'expiration du certificat dans Last Cert Expiry Time

Méthode 2 : vérifier la configuration du point de terminaison d'inférence


kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>

Le statut commun stipule :

DeploymentInProgress: Phase de déploiement initiale
DeploymentComplete: Déploiement réussi
Failed: échec du déploiement

Note

Surveillez la section Événements pour détecter tout avertissement ou erreur. Vérifiez que le nombre de répliques correspond à la configuration attendue. Vérifiez que toutes les conditions sont réunies Status: True pour un déploiement sain.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Expiration du délai de téléchargement des certificats

Problème d'autorisation VPC ENI