SageMaker Parámetros de punto final de IA para inferencia de modelos grandes

Puede personalizar los siguientes parámetros para facilitar la inferencia de modelos grandes (LMI) de baja latencia con IA: SageMaker

Tamaño máximo del volumen de Amazon EBS en la instancia (VolumeSizeInGB): si el tamaño del modelo es superior a 30 GB y utiliza una instancia sin disco local, debe aumentar este parámetro para que sea ligeramente mayor que el tamaño del modelo.
Cuota de tiempo de espera de las comprobaciones de estado (ContainerStartupHealthCheckTimeoutInSeconds): si tu contenedor está configurado correctamente y los CloudWatch registros indican que se ha agotado el tiempo de espera de las comprobaciones de estado, debes aumentar esta cuota para que el contenedor tenga tiempo suficiente para responder a las comprobaciones de estado.
Cuota de tiempo de espera de descarga del modelo (ModelDataDownloadTimeoutInSeconds): si el tamaño del modelo es superior a 40 GB, debe aumentar esta cuota para disponer de tiempo suficiente para descargar el modelo de Amazon S3 a la instancia.

El siguiente fragmento de código muestra cómo configurar mediante programación los parámetros mencionados. italicized placeholder textSustitúyala en el ejemplo por tu propia información.


import boto3

aws_region = "aws-region"
sagemaker_client = boto3.client('sagemaker', region_name=aws_region)

# The name of the endpoint. The name must be unique within an AWS Region in your AWS account.
endpoint_name = "endpoint-name"

# Create an endpoint config name.
endpoint_config_name = "endpoint-config-name"

# The name of the model that you want to host.
model_name = "the-name-of-your-model"

instance_type = "instance-type"

sagemaker_client.create_endpoint_config(
    EndpointConfigName = endpoint_config_name
    ProductionVariants=[
        {
            "VariantName": "variant1", # The name of the production variant.
            "ModelName": model_name,
            "InstanceType": instance_type, # Specify the compute instance type.
            "InitialInstanceCount": 1, # Number of instances to launch initially.
            "VolumeSizeInGB": 256, # Specify the size of the Amazon EBS volume.
            "ModelDataDownloadTimeoutInSeconds": 1800, # Specify the model download timeout in seconds.
            "ContainerStartupHealthCheckTimeoutInSeconds": 1800, # Specify the health checkup timeout in seconds
        },
    ],
)

sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)

Para obtener más información sobre las claves de ProductionVariants, consulte ProductionVariant.

Para ver ejemplos que demuestran cómo lograr inferencias de baja latencia con modelos grandes, consulte los ejemplos de inferencias generativas de IA en Amazon SageMaker AI en el repositorio aws-samples. GitHub

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Documentación del contenedor de LMI

Implementación de modelos sin comprimir