View a markdown version of this page

Problèmes liés au déploiement du modèle - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Problèmes liés au déploiement du modèle

Présentation : cette section couvre les problèmes courants qui surviennent lors du déploiement du modèle, notamment les états en attente, les échecs de déploiement et le suivi de la progression du déploiement.

Déploiement du modèle bloqué en attente

Lors du déploiement d'un modèle, le déploiement reste dans l'état « En attente » pendant une période prolongée. Cela indique que l'opérateur d'inférence n'est pas en mesure de lancer le déploiement du modèle dans votre HyperPod cluster.

Composants concernés :

Lors d'un déploiement normal, l'opérateur d'inférence doit :

  • Déployer le modèle Pod

  • Création d'un équilibreur de charge

  • Créer un point de terminaison SageMaker AI

Étapes de résolution des problèmes :

  1. Vérifiez l'état du module de l'opérateur d'inférence :

    kubectl get pods -n hyperpod-inference-system

    Exemple de sortie attendue :

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. Consultez les journaux des opérateurs d'inférence et examinez les journaux des opérateurs pour détecter les messages d'erreur :

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

Ce qu'il faut rechercher :

  • Messages d'erreur dans les journaux de l'opérateur

  • État du module de commande

  • Tout avertissement ou échec lié au déploiement

Note

Un déploiement sain doit dépasser l'état « En attente » dans un délai raisonnable. Si les problèmes persistent, consultez les journaux des opérateurs d'inférence pour détecter les messages d'erreur spécifiques afin d'en déterminer la cause première.

Résolution des problèmes d'état d'échec du déploiement du modèle

Lorsqu'un déploiement de modèle passe à l'état « Échec », l'échec peut se produire dans l'un des trois composants suivants :

  • Déploiement du Model Pod

  • Création d'un équilibreur de charge

  • SageMaker Création de points de terminaison AI

Étapes de résolution des problèmes :

  1. Vérifiez le statut de l'opérateur d'inférence :

    kubectl get pods -n hyperpod-inference-system

    Sortie attendue :

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. Consultez les journaux des opérateurs :

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

Ce qu'il faut rechercher :

Les journaux de l'opérateur indiqueront quel composant a échoué :

  • Défaillances de déploiement du Model Pod

  • Problèmes de création d'un équilibreur de charge

  • SageMaker Erreurs liées aux terminaux de l'IA

Vérification de la progression du déploiement du modèle

Pour suivre la progression du déploiement de votre modèle et identifier les problèmes potentiels, vous pouvez utiliser les commandes kubectl pour vérifier l'état des différents composants. Cela permet de déterminer si le déploiement progresse normalement ou s'il a rencontré des problèmes lors de la création du module de modélisation, de la configuration de l'équilibreur de charge ou des phases de configuration des terminaux SageMaker AI.

Méthode 1 : vérifier l'état du JumpStart modèle

kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>

Indicateurs de statut clés à surveiller :

  1. Statut du déploiement

    • Rechercher Status.State : Devrait montrer DeploymentComplete

    • Vérifiez Status.Deployment Status.Available Replicas

    • Surveiller Status.Conditions la progression du déploiement

  2. SageMaker État du point de terminaison AI

    • Vérifiez Status.Endpoints.Sagemaker.State : Devrait s'afficher CreationCompleted

    • Vérifiez Status.Endpoints.Sagemaker.Endpoint Arn

  3. État du certificat TLS

    • Afficher les Status.Tls Certificate détails

    • Vérifiez l'expiration du certificat dans Last Cert Expiry Time

Méthode 2 : vérifier la configuration du point de terminaison d'inférence

kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>

Le statut commun stipule :

  • DeploymentInProgress: Phase de déploiement initiale

  • DeploymentComplete: Déploiement réussi

  • Failed: échec du déploiement

Note

Surveillez la section Événements pour détecter tout avertissement ou erreur. Vérifiez que le nombre de répliques correspond à la configuration attendue. Vérifiez que toutes les conditions sont réunies Status: True pour un déploiement sain.