Prueba de carga de la configuración de escalado automático
Realice pruebas de carga para elegir una configuración de escalado que funcione de la manera que desea.
Las siguientes directrices de prueba de carga presuponen que está utilizando una política de escalado que usa la métrica de destino predefinida SageMakerVariantInvocationsPerInstance.
Determinación de las características de rendimiento
Realice la prueba de carga para buscar el pico InvocationsPerInstance que la variante de producción del modelo puede administrar y la latencia de las solicitudes a medida que la concurrencia aumenta.
Este valor depende del tipo de instancia elegido, las cargas que los clientes de su modelo suelen enviar y el rendimiento de cualquier dependencia externa que tenga su modelo.
Para buscar las solicitudes por segundo (RPS) pico que la variante de producción del modelo puede administrar y la latencia de las solicitudes
-
Configure un punto de enlace con su modelo mediante una instancia única. Para obtener información sobre cómo configurar un punto de enlace, consulte Implementación del modelo en los servicios de alojamiento de SageMaker AI.
-
Utilice una herramienta de prueba de carga para generar un número mayor de solicitudes en paralelo y monitorear las RPS y la latencia del modelo en la salida de la herramienta de prueba de carga.
nota
También puede monitorear solicitudes por minuto en lugar de las RPS. En ese caso, no multiplique por 60 en la ecuación para calcular
SageMakerVariantInvocationsPerInstanceque se muestra a continuación.Cuando la latencia de modelo aumenta o la proporción de las transacciones correctas desciende, esta es las RPS pico que su modelo puede administrar.
Cálculo de la carga de destino
Una vez que encuentre las características de desempeño de la variante, puede determinar las RPS máximas que debemos permitir que se envíen a una instancia. El umbral utilizado para el escalado debe ser inferior a este valor máximo. Utilice la siguiente ecuación en combinación con la prueba de carga para determinar el valor correcto para la métrica de destino SageMakerVariantInvocationsPerInstance en su configuración de escalado.
SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60
Donde MAX_RPS son las RPS máximas que determinó anteriormente y SAFETY_FACTOR es el factor de seguridad que eligió para garantizar que sus clientes no superan las RPS máximas. Multiplique por 60 para convertir de RPS a invocaciones por minuto, con el fin de usar la métrica de CloudWatch por minuto que SageMaker AI utiliza para implementar el escalado automático (no necesita hacer esto si ha medido las solicitudes por minuto en lugar de las solicitudes por segundo).
nota
SageMaker AI recomienda que inicie la prueba con un SAFETY_FACTOR de 0,5. Pruebe la configuración de escalado para asegurarse de que funciona de la forma que espera con su modelo para el aumento y el descenso de tráfico del cliente en su punto de conexión.