Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Problemas de implementación del modelo
Descripción general: en esta sección se describen los problemas más comunes que se producen durante la implementación del modelo, incluidos los estados pendientes, las implementaciones fallidas y la supervisión del progreso de la implementación.
El despliegue del modelo está atascado en estado pendiente
Al implementar un modelo, la implementación permanece en estado «pendiente» durante un período prolongado. Esto indica que el operador de inferencia no puede iniciar la implementación del modelo en el HyperPod clúster.
Componentes afectados:
Durante el despliegue normal, el operador de inferencia debe:
-
Implementar un pod modelo
-
Creación de un balanceador de carga
-
Cree un punto final de SageMaker IA
Pasos para la solución de problemas:
-
Compruebe el estado del módulo del operador de inferencia:
kubectl get pods -n hyperpod-inference-systemEjemplo de resultado esperado:
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
Revise los registros de operadores de inferencia y examine los registros de operadores para ver si hay mensajes de error:
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
Qué buscar:
-
Mensajes de error en los registros del operador
-
Estado del módulo del operador
-
Cualquier advertencia o fallo relacionado con la implementación
nota
Una implementación en buen estado debería superar el estado «Pendiente» en un tiempo razonable. Si los problemas persisten, revise los registros del operador de inferencia para ver si hay mensajes de error específicos para determinar la causa raíz.
Solución de problemas de estado de implementación del modelo
Cuando la implementación de un modelo entra en un estado «fallido», el error puede producirse en uno de los tres componentes:
-
Despliegue del módulo modelo
-
Creación de un balanceador de carga
-
SageMaker Creación de terminales de IA
Pasos para la solución de problemas:
-
Compruebe el estado del operador de inferencia:
kubectl get pods -n hyperpod-inference-systemResultado previsto:
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
Revise los registros del operador:
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
Qué buscar:
Los registros del operador indicarán qué componente falló:
-
Fallos en el despliegue del pod del modelo
-
Problemas de creación del balanceador de carga
-
SageMaker Errores de punto final de IA
Comprobar el progreso de la implementación del modelo
Para supervisar el progreso de la implementación de su modelo e identificar posibles problemas, puede usar los comandos kubectl para comprobar el estado de varios componentes. Esto ayuda a determinar si la implementación avanza con normalidad o si ha tenido problemas durante las fases de creación del módulo del modelo, configuración del equilibrador de carga o SageMaker configuración de los terminales de IA.
Método 1: compruebe el estado del modelo JumpStart
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
Indicadores de estado clave que deben supervisarse:
-
Estado de la implementación
-
Busque
Status.State: Debería mostrarseDeploymentComplete -
Compruebe
Status.Deployment Status.Available Replicas -
Supervise
Status.Conditionsel progreso de la implementación
-
-
SageMaker Estado del terminal de IA
-
Comprobar
Status.Endpoints.Sagemaker.State: debería mostrarseCreationCompleted -
Verificar
Status.Endpoints.Sagemaker.Endpoint Arn
-
-
Estado del certificado TLS
-
Ver detalles
Status.Tls Certificate -
Compruebe la caducidad del certificado en
Last Cert Expiry Time
-
Método 2: compruebe la configuración del punto final de inferencia
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
Estados de estado comunes:
-
DeploymentInProgress: Fase de despliegue inicial -
DeploymentComplete: Despliegue exitoso -
Failed: Falló el despliegue
nota
Supervise la sección de eventos para detectar cualquier advertencia o error. Compruebe que el recuento de réplicas coincida con la configuración esperada. Compruebe que se cumplen todas las condiciones Status:
True para una implementación correcta.