Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Problèmes liés au déploiement du modèle
Présentation : cette section couvre les problèmes courants qui surviennent lors du déploiement du modèle, notamment les états en attente, les échecs de déploiement et le suivi de la progression du déploiement.
Déploiement du modèle bloqué en attente
Lors du déploiement d'un modèle, le déploiement reste dans l'état « En attente » pendant une période prolongée. Cela indique que l'opérateur d'inférence n'est pas en mesure de lancer le déploiement du modèle dans votre HyperPod cluster.
Composants concernés :
Lors d'un déploiement normal, l'opérateur d'inférence doit :
-
Déployer le modèle Pod
-
Création d'un équilibreur de charge
-
Créer un point de terminaison SageMaker AI
Étapes de résolution des problèmes :
-
Vérifiez l'état du module de l'opérateur d'inférence :
kubectl get pods -n hyperpod-inference-systemExemple de sortie attendue :
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
Consultez les journaux des opérateurs d'inférence et examinez les journaux des opérateurs pour détecter les messages d'erreur :
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
Ce qu'il faut rechercher :
-
Messages d'erreur dans les journaux de l'opérateur
-
État du module de commande
-
Tout avertissement ou échec lié au déploiement
Note
Un déploiement sain doit dépasser l'état « En attente » dans un délai raisonnable. Si les problèmes persistent, consultez les journaux des opérateurs d'inférence pour détecter les messages d'erreur spécifiques afin d'en déterminer la cause première.
Résolution des problèmes d'état d'échec du déploiement du modèle
Lorsqu'un déploiement de modèle passe à l'état « Échec », l'échec peut se produire dans l'un des trois composants suivants :
-
Déploiement du Model Pod
-
Création d'un équilibreur de charge
-
SageMaker Création de points de terminaison AI
Étapes de résolution des problèmes :
-
Vérifiez le statut de l'opérateur d'inférence :
kubectl get pods -n hyperpod-inference-systemSortie attendue :
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
Consultez les journaux des opérateurs :
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
Ce qu'il faut rechercher :
Les journaux de l'opérateur indiqueront quel composant a échoué :
-
Défaillances de déploiement du Model Pod
-
Problèmes de création d'un équilibreur de charge
-
SageMaker Erreurs liées aux terminaux de l'IA
Vérification de la progression du déploiement du modèle
Pour suivre la progression du déploiement de votre modèle et identifier les problèmes potentiels, vous pouvez utiliser les commandes kubectl pour vérifier l'état des différents composants. Cela permet de déterminer si le déploiement progresse normalement ou s'il a rencontré des problèmes lors de la création du module de modélisation, de la configuration de l'équilibreur de charge ou des phases de configuration des terminaux SageMaker AI.
Méthode 1 : vérifier l'état du JumpStart modèle
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
Indicateurs de statut clés à surveiller :
-
Statut du déploiement
-
Rechercher
Status.State: Devrait montrerDeploymentComplete -
Vérifiez
Status.Deployment Status.Available Replicas -
Surveiller
Status.Conditionsla progression du déploiement
-
-
SageMaker État du point de terminaison AI
-
Vérifiez
Status.Endpoints.Sagemaker.State: Devrait s'afficherCreationCompleted -
Vérifiez
Status.Endpoints.Sagemaker.Endpoint Arn
-
-
État du certificat TLS
-
Afficher les
Status.Tls Certificatedétails -
Vérifiez l'expiration du certificat dans
Last Cert Expiry Time
-
Méthode 2 : vérifier la configuration du point de terminaison d'inférence
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
Le statut commun stipule :
-
DeploymentInProgress: Phase de déploiement initiale -
DeploymentComplete: Déploiement réussi -
Failed: échec du déploiement
Note
Surveillez la section Événements pour détecter tout avertissement ou erreur. Vérifiez que le nombre de répliques correspond à la configuration attendue. Vérifiez que toutes les conditions sont réunies Status:
True pour un déploiement sain.