Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Obtener una recomendación de inferencia para un punto de conexión existente
Los trabajos de recomendación de inferencias ejecutan un conjunto de pruebas de carga en los tipos de instancias recomendados y en un punto de conexión existente. Los trabajos de recomendación de inferencia utilizan métricas de rendimiento que se basan en pruebas de carga que utilizan los datos de muestra que proporcionaste durante el registro de la versión del modelo.
Puede comparar y obtener recomendaciones de inferencia para un punto de conexión de inferencia de SageMaker AI existente para ayudarle a mejorar el rendimiento del punto de conexión. El procedimiento para obtener recomendaciones para un punto de conexión de inferencia de SageMaker AI existente es similar al procedimiento para obtener recomendaciones de inferencia sin un punto de conexión. Hay varias exclusiones de características que hay que tener en cuenta a la hora de realizar una evaluación comparativa de un punto de conexión existente:
-
Solo puede utilizar un punto de conexión existente por cada trabajo de recomendación de inferencias.
-
Solo puede tener una variante en su punto de conexión.
-
No puede usar un punto de conexión que habilite el escalado automático.
-
Esta funcionalidad solo es compatible con la inferencia en tiempo real.
-
Esta funcionalidad no admite puntos de conexión multimodelo en tiempo real.
aviso
Se recomienda no ejecutar un trabajo de recomendación de inferencia en un punto de conexión de producción que gestione el tráfico en directo. La carga sintética durante la evaluación comparativa puede afectar al punto de conexión de producción y provocar una limitación o proporcionar resultados de referencia inexactos. Le recomendamos que utilice un punto de conexión que no sea de producción o de desarrollador para fines de comparación.
En las siguientes secciones se muestra cómo utilizar el Recomendador de inferencias de Amazon SageMaker para crear una recomendación de inferencia para un punto de conexión existente en función del tipo de modelo mediante el AWS SDK para Python (Boto3) y la AWS CLI.
nota
Antes de crear un trabajo de recomendación de Recomendador de inferencias, asegúrese de haber cumplido con los Requisitos previos para utilizar el Recomendador de inferencias de Amazon SageMaker.
Requisitos previos
Si aún no tiene un punto de conexión de inferencia de SageMaker AI, puede obtener una recomendación de inferencia sin un punto de conexión o puede crear un punto de conexión de inferencia en tiempo real siguiendo las instrucciones de Crear punto de conexión e implementar el modelo.
Crear un trabajo de recomendación de inferencia para un punto de conexión existente
Cree una recomendación de inferencia mediante programación utilizando AWS SDK para Python (Boto3), o la AWS CLI. Especifique un nombre de trabajo para su recomendación de inferencia, el nombre de un punto de conexión de inferencia de SageMaker AI existente, un ARN de rol de IAM de AWS, una configuración de entrada y el ARN del paquete de modelos desde el momento en que registró el modelo en el registro de modelos.
Obtener resultados de trabajo de recomendación de inferencia
Puede recopilar los resultados de su trabajo de recomendación de inferencia mediante programación con el mismo procedimiento que para los trabajos de recomendación de inferencia estándar. Para obtener más información, consulte Obtener resultados de trabajo de recomendación de inferencia.
Cuando obtenga los resultados de un trabajo de recomendación de inferencia para un punto de conexión existente, debería recibir una respuesta en JSON similar a la siguiente:
{ "JobName":"job-name", "JobType": "Default", "JobArn": "arn:aws:sagemaker:region:account-id:inference-recommendations-job/resource-id", "RoleArn":"iam-role-arn", "Status": "COMPLETED", "CreationTime": 1664922919.2, "LastModifiedTime": 1664924208.291, "InputConfig": { "ModelPackageVersionArn": "arn:aws:sagemaker:region:account-id:model-package/resource-id", "Endpoints": [ { "EndpointName":"endpoint-name"} ] }, "InferenceRecommendations": [ { "Metrics": { "CostPerHour": 0.7360000014305115, "CostPerInference": 7.456940238625975e-06, "MaxInvocations": 1645, "ModelLatency": 171 }, "EndpointConfiguration": { "EndpointName":"sm-endpoint-name", "VariantName":"variant-name", "InstanceType": "ml.g4dn.xlarge", "InitialInstanceCount": 1 }, "ModelConfiguration": { "EnvironmentParameters": [ { "Key": "TS_DEFAULT_WORKERS_PER_MODEL", "ValueType": "string", "Value": "4" } ] } } ], "EndpointPerformances": [ { "Metrics": { "MaxInvocations": 184, "ModelLatency": 1312 }, "EndpointConfiguration": { "EndpointName":"endpoint-name"} } ] }
Las primeras líneas proporcionan información sobre el trabajo de recomendación de inferencia en sí. Esto incluye el nombre del trabajo, el ARN del rol y las horas de creación y última modificación.
El diccionario InferenceRecommendations contiene una lista de recomendaciones de inferencias del Recomendador de Inferencias.
El diccionario anidado EndpointConfiguration contiene la recomendación del tipo de instancia (InstanceType) junto con el punto de conexión y el nombre de la variante (un modelo de machine learning de AWS implementado) que se utilizó durante el trabajo de recomendación.
El diccionario Metrics anidado contiene información sobre el costo estimado por hora (CostPerHour) para el punto de conexión en tiempo real en dólares estadounidenses, el costo estimado por inferencia (CostPerInference) en dólares estadounidenses para el punto de conexión en tiempo real, el número máximo esperado de InvokeEndpoint solicitudes por minuto enviadas al punto de conexión (MaxInvocations) y la latencia del modelo (ModelLatency), que es el intervalo de tiempo (en milisegundos) que el modelo tardó en responder a SageMaker AI. La latencia del modelo incluye el tiempo de comunicación local empleado en el envío de la solicitud y la recuperación de la respuesta del contenedor de un modelo, así como el tiempo que se tarda en completar la inferencia en el contenedor.
El diccionario anidado EndpointPerformances contiene el nombre del punto de conexión actual en el que se ejecutó el trabajo de recomendación (EndpointName) y las métricas de rendimiento del punto de conexión (MaxInvocations y ModelLatency).