Parámetros de punto de conexión de SageMaker AI para inferencia de modelos grandes - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Parámetros de punto de conexión de SageMaker AI para inferencia de modelos grandes

Puede personalizar los siguientes parámetros para facilitar la inferencia de modelos grandes (LMI) de baja latencia con SageMaker AI:

  • Tamaño máximo del volumen de Amazon EBS en la instancia (VolumeSizeInGB): si el tamaño del modelo es superior a 30 GB y utiliza una instancia sin disco local, debe aumentar este parámetro para que sea ligeramente mayor que el tamaño del modelo.

  • Cuota de tiempo de espera de comprobación de estado (ContainerStartupHealthCheckTimeoutInSeconds): si el contenedor está configurado correctamente y los registros de CloudWatch indican que se ha agotado el tiempo de espera de comprobación de estado, debe aumentar esta cuota para que el contenedor tenga tiempo suficiente para responder a las comprobaciones de estado.

  • Cuota de tiempo de espera de descarga del modelo (ModelDataDownloadTimeoutInSeconds): si el tamaño del modelo es superior a 40 GB, debe aumentar esta cuota para disponer de tiempo suficiente para descargar el modelo de Amazon S3 a la instancia.

El siguiente fragmento de código muestra cómo configurar mediante programación los parámetros mencionados. Sustituya el texto en cursiva del marcador por su propia información.

import boto3 aws_region = "aws-region" sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # The name of the endpoint. The name must be unique within an AWS Region in your AWS account. endpoint_name = "endpoint-name" # Create an endpoint config name. endpoint_config_name = "endpoint-config-name" # The name of the model that you want to host. model_name = "the-name-of-your-model" instance_type = "instance-type" sagemaker_client.create_endpoint_config( EndpointConfigName = endpoint_config_name ProductionVariants=[ { "VariantName": "variant1", # The name of the production variant. "ModelName": model_name, "InstanceType": instance_type, # Specify the compute instance type. "InitialInstanceCount": 1, # Number of instances to launch initially. "VolumeSizeInGB": 256, # Specify the size of the Amazon EBS volume. "ModelDataDownloadTimeoutInSeconds": 1800, # Specify the model download timeout in seconds. "ContainerStartupHealthCheckTimeoutInSeconds": 1800, # Specify the health checkup timeout in seconds }, ], ) sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)

Para obtener más información sobre las claves de ProductionVariants, consulte ProductionVariant.

Para ver ejemplos que demuestren cómo lograr una inferencia de baja latencia con modelos grandes, consulte Generative AI Inference Examples on Amazon SageMaker AI en el repositorio de GitHub aws-samples.