Información general sobre las políticas de escalado automático - Amazon SageMaker AI

Información general sobre las políticas de escalado automático

Para usar el escalado automático, debe definir una política de escalado que agregue y elimine el número de instancias de la variante de producción en respuesta a las cargas de trabajo reales.

Para escalar automáticamente a medida que se producen cambios en la carga de trabajo, tiene dos opciones: políticas de seguimiento de destino y de escalado por pasos.

En la mayoría de los casos, recomendamos utilizar políticas de escalado de seguimiento de destino. Con el seguimiento de destino, elige una métrica y un valor de destino de Amazon CloudWatch. El escalado automático crea y administra las alarmas de CloudWatch para la política de escalado y calcula el ajuste de escalado según la métrica y el valor del destino. La política agrega o quita las instancias en función de las necesidades para mantener la métrica en el valor objetivo especificado o en un valor próximo. Por ejemplo, una política de escalado que utiliza la métrica predefinida InvocationsPerInstance con un valor de destino de 70 puede mantener InvocationsPerInstance en 70 o cerca de ese valor. Para obtener más información, consulte Políticas de escalado de seguimiento de destino en la Guía del usuario de Application Auto Scaling.

Puede utilizar el escalado por pasos cuando necesite una configuración avanzada, como especificar cuántas instancias se implementarán y en qué condiciones. Por ejemplo, debe usar el escalado por pasos si desea permitir que un punto de conexión se escale horizontalmente desde cero instancias activas. Para obtener más información acerca de políticas de escalado por pasos y su funcionamiento, consulte Step scaling policies en la Guía del usuario de Application Auto Scaling.

Para crear una política de escalado de seguimiento de destino, debe especificar lo siguiente:

  • Métrica: la métrica de CloudWatch de la que debe realizarse el seguimiento, como el número promedio de invocaciones por instancia.

  • Valor objetivo: el valor objetivo de la métrica, como 70 invocaciones por instancia por minuto.

Puede crear políticas de escalado de seguimiento de destino con métricas predefinidas o personalizadas. Se define una métrica predefinida en una enumeración, de manera que puede especificarla por el nombre en el código o usarla en la consola de SageMaker AI. También puede utilizar la AWS CLI o la API de Application Auto Scaling para aplicar una política de escalado de seguimiento de destino basada en una métrica predefinida o personalizada.

Tenga en cuenta que las actividades de escalado se realizan con periodos de recuperación entre ellas para evitar fluctuaciones rápidas de la capacidad. Si lo desea, puede configurar los periodos de recuperación para su política de escalado.

Para obtener más información acerca de los conceptos clave del escalado automático, consulte la siguiente sección.

Escalado basado en programación

También puede crear acciones programadas para realizar actividades de escalado en momentos específicos. Puede crear acciones programadas que realizan el escalado de forma puntual o periódica. Después de ejecutar una acción programada, la política de escalado puede seguir tomando decisiones sobre si desea escalar dinámicamente a medida que se producen cambios en la carga de trabajo. El escalado programado solo puede administrarse desde la AWS CLI o la API de Application Auto Scaling. Para obtener más información, consulte Escalado programado en la Guía del usuario de Auto Scaling de aplicaciones.

Límites de escalado máximo y mínimo

Al configurar el escalado automático, debe especificar sus límites de escalado antes de crear una política de escalado. Configure los límites por separado para los valores mínimo y máximo.

Este valor debe ser al menos 1, e igual o inferior al valor especificado para el máximo.

El valor máximo debe ser igual o superior al valor especificado para el valor mínimo. El escalado automático de SageMaker AI no aplica un límite para este valor.

Para determinar los límites de escalado que necesita para el tráfico normal, pruebe la configuración de escalado automático con la tasa de tráfico esperada para su modelo.

Si el tráfico de una variante es cero, SageMaker AI se reduce horizontalmente de forma automática al número mínimo de instancias especificadas. En este caso, SageMaker AI emite métricas con un valor de cero.

Hay tres opciones para especificar la capacidad mínima y máxima:

  1. Utilice la consola para actualizar la configuración del número mínimo de instancias y el número máximo de instancias.

  2. Utilice la AWS CLI e incluya las opciones --min-capacity y --max-capacity cuando ejecute el comando register-scalable-target.

  3. Llame a la API RegisterScalableTarget y especifique los parámetros MinCapacity y MaxCapacity.

sugerencia

Puede escalar horizontalmente de forma manual aumentando el valor mínimo, o reducir horizontalmente de forma manual reduciendo el valor máximo.

Periodo de recuperación

Se utiliza un periodo de recuperación para proteger contra el escalado excesivo cuando el modelo se reduzca horizontalmente (reducción de la capacidad) o se escale horizontalmente (aumento de la capacidad). Se hace ralentizando las actividades de escalado posteriores hasta que venza el periodo. En concreto, bloquea la eliminación de las instancias para las solicitudes de reducción horizontal y limita la creación de instancias de solicitudes de escalado horizontal. Para obtener más información, consulte Define cooldown periods en la Guía del usuario de Application Auto Scaling.

El periodo de recuperación se configura en la política de escalado.

Si no especifica un periodo de recuperación de reducción horizontal o escalado horizontal, la política de escalado utiliza el valor predeterminado, que es 300 segundos en cada uno de ellos.

Si las instancias se agregan o quitan demasiado rápido al probar la configuración del escalado, plantéese aumentar ese valor. Puede ver este comportamiento si el tráfico al modelo tiene muchos picos, o si dispone de varias políticas de escalado definidas para una variante.

Si las instancias no se agregan lo suficientemente rápido como para tratar el aumento del tráfico, considere reducir este valor.

Para obtener más información sobre la configuración del escalado automático, vea los siguientes recursos:

nota

SageMaker AI ha introducido recientemente nuevas capacidades de inferencia basadas en puntos de conexión de inferencia en tiempo real. Cree un punto de conexión de SageMaker AI con una configuración de punto de conexión que defina el tipo de instancia y el recuento inicial de instancias para el punto de conexión. A continuación, cree un componente de inferencia, que es un objeto de alojamiento de SageMaker AI que puede utilizar para implementar un modelo en un punto de conexión. Para obtener información sobre el escalado de los componentes de inferencia, consulte SageMaker AI adds new inference capabilities to help reduce foundation model deployment costs and latency y Reduce model deployment costs by 50% on average using the latest features of SageMaker en el blog de AWS.