El despliegue del modelo está atascado en estado pendiente Solución de problemas de estado de implementación del modelo Comprobar el progreso de la implementación del modelo

Problemas de implementación del modelo

Descripción general: en esta sección se describen los problemas más comunes que se producen durante la implementación del modelo, incluidos los estados pendientes, las implementaciones fallidas y la supervisión del progreso de la implementación.

El despliegue del modelo está atascado en estado pendiente

Al implementar un modelo, la implementación permanece en estado «pendiente» durante un período prolongado. Esto indica que el operador de inferencia no puede iniciar la implementación del modelo en el HyperPod clúster.

Componentes afectados:

Durante el despliegue normal, el operador de inferencia debe:

Implementar un pod de modelos
Creación de un balanceador de carga
Cree un punto final de SageMaker IA

Pasos para la solución de problemas:

Compruebe el estado del módulo del operador de inferencia:


kubectl get pods -n hyperpod-inference-system

Ejemplo de resultado esperado:


NAME                                                           READY   STATUS    RESTARTS   AGE
hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h

Revise los registros de operadores de inferencia y examine los registros de operadores para ver si hay mensajes de error:
```
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
```

Qué buscar:

Mensajes de error en los registros del operador
Estado del módulo del operador
Cualquier advertencia o fallo relacionado con la implementación

nota

Una implementación en buen estado debería superar el estado «Pendiente» en un tiempo razonable. Si los problemas persisten, revise los registros del operador de inferencia para ver si hay mensajes de error específicos para determinar la causa raíz.

Solución de problemas de estado de implementación del modelo

Cuando la implementación de un modelo entra en un estado «fallido», el error puede producirse en uno de los tres componentes:

Despliegue del módulo modelo
Creación de un balanceador de carga
SageMaker Creación de terminales de IA

Pasos para la solución de problemas:

Compruebe el estado del operador de inferencia:


kubectl get pods -n hyperpod-inference-system

Resultado previsto:


NAME                                                           READY   STATUS    RESTARTS   AGE
hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h

Revise los registros del operador:


kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

Qué buscar:

Los registros del operador indicarán qué componente falló:

Fallos en el despliegue del pod del modelo
Problemas de creación del balanceador de carga
SageMaker Errores de punto final de IA

Comprobar el progreso de la implementación del modelo

Para supervisar el progreso de la implementación de su modelo e identificar posibles problemas, puede usar los comandos kubectl para comprobar el estado de varios componentes. Esto ayuda a determinar si la implementación avanza con normalidad o si ha tenido problemas durante las fases de creación del módulo del modelo, configuración del equilibrador de carga o SageMaker configuración de los terminales de IA.

Método 1: compruebe el estado del modelo JumpStart


kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>

Indicadores de estado clave que deben supervisarse:

Estado de la implementación
- BusqueStatus.State: Debería mostrarse DeploymentComplete
- Compruebe Status.Deployment Status.Available Replicas
- Supervise Status.Conditions el progreso de la implementación
SageMaker Estado del terminal de IA
- ComprobarStatus.Endpoints.Sagemaker.State: debería mostrarse CreationCompleted
- Verificar Status.Endpoints.Sagemaker.Endpoint Arn
Estado del certificado TLS
- Ver detalles Status.Tls Certificate
- Compruebe la caducidad del certificado en Last Cert Expiry Time

Método 2: compruebe la configuración del punto final de inferencia


kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>

Estados de estado comunes:

DeploymentInProgress: Fase de despliegue inicial
DeploymentComplete: Despliegue exitoso
Failed: Falló el despliegue

nota

Supervise la sección de eventos para detectar cualquier advertencia o error. Compruebe que el recuento de réplicas coincida con la configuración esperada. Compruebe que se cumplen todas las condiciones Status: True para una implementación correcta.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Tiempo de espera para descargar el certificado

Emisión de permisos VPC ENI