Implementación del modelo a escala - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Implementación del modelo a escala

Configure el autoscalamiento y la CloudWatch supervisión de su terminal de SageMaker IA para que esté listo para la producción.

Por qué la supervisión de la producción es importante para la clasificación de texto

Las cargas de trabajo de clasificación de texto requieren supervisión porque:

  • experimentan patrones de tráfico variables con ráfagas de procesamiento,

  • requieren tiempos de respuesta inferiores a un segundo,

  • necesitan optimizar los costos mediante escalado automático.

Requisitos previos

Antes de empezar, asegúrese de que:

  • Su terminal de SageMaker IA se implementó a partir de la sección anterior.

  • El nombre de tu punto final (por ejemplo, jumpstart-dft-hf-tc).

  • Tu Región de AWS (por ejemplo, us-east-2).

Para crear puntos de conexión o solucionar problemas, consulte Inferencia en tiempo real.

Configuración de la supervisión de producción

Configure CloudWatch la supervisión para realizar un seguimiento del rendimiento de su modelo en producción.

  1. En su JupyterLab espacio, abra el sagemaker_production_monitoring.ipynb cuaderno del paquete de evaluación que cargó anteriormente.

  2. Actualice el nombre y la región de su punto de conexión en la sección de configuración.

  3. Siga las instrucciones del cuaderno para configurar lo siguiente:

    • Escalado automático (de 1 a 10 instancias en función del tráfico)

    • CloudWatch alarmas para los umbrales de latencia e invocación.

    • Panel de métricas para la supervisión visual

Verificación de la configuración

Después de completar los pasos del cuaderno, compruebe lo siguiente:

  • Estado del punto de conexión: InService

  • Escalado automático: de 1 a 10 instancias configuradas

  • CloudWatch Alarmas: monitoreo de 2 alarmas.

  • Métricas: más de 15 métricas registradas

nota

Es posible que las alarmas muestren INSUFFICIENT_DATA inicialmente; esto es normal y cambiará a OK con el uso.

Supervisión de su punto de conexión

Acceda a la supervisión visual a través de la consola AWS de administración:

Para obtener más información, consulte Supervisar la SageMaker IA.

Administración de costos y limpieza de recursos

Su configuración de monitoreo proporciona información valiosa sobre la producción, pero también genera AWS cargos continuos a través de CloudWatch métricas, alarmas y políticas de autoscalamiento. Comprender cómo administrar estos costos es esencial para que las operaciones sean rentables. Elimine los recursos cuando ya no los necesite.

aviso

Su punto de conexión sigue incurriendo en cargos incluso cuando no procesa solicitudes. Para detener los cargos, debe eliminar el punto de conexión. Para obtener instrucciones, consulte Eliminación de puntos de conexión y recursos.

Para obtener información sobre las configuraciones de monitoreo avanzadas, consulte CloudWatch Metrics for SageMaker AI.