SageMaker Parametri degli endpoint AI per l'inferenza di modelli di grandi dimensioni

Puoi personalizzare i seguenti parametri per facilitare l'inferenza di modelli di grandi dimensioni (LMI) a bassa latenza con l'intelligenza artificiale: SageMaker

Dimensione massima del volume Amazon EBS sull'istanza (VolumeSizeInGB): se la dimensione del modello è superiore a 30 GB e stai utilizzando un'istanza senza un disco locale, devi aumentare questo parametro in modo che sia leggermente superiore alla dimensione del tuo modello.
Quota di timeout per il controllo dello stato di salute (ContainerStartupHealthCheckTimeoutInSeconds): se il contenitore è configurato correttamente e CloudWatch i registri indicano un timeout per il controllo dello stato di salute, è necessario aumentare questa quota in modo che il contenitore abbia abbastanza tempo per rispondere ai controlli di integrità.
Quota di timeout per il download del modello (ModelDataDownloadTimeoutInSeconds): se la dimensione del modello è superiore a 40 GB, devi aumentare questa quota per avere tempo sufficiente per scaricare il modello da Amazon S3 sull’istanza.

Il seguente frammento di codice mostra come configurare in modo programmatico i parametri sopra menzionati. Sostituisci le italicized placeholder text informazioni dell'esempio con le tue informazioni.


import boto3

aws_region = "aws-region"
sagemaker_client = boto3.client('sagemaker', region_name=aws_region)

# The name of the endpoint. The name must be unique within an AWS Region in your AWS account.
endpoint_name = "endpoint-name"

# Create an endpoint config name.
endpoint_config_name = "endpoint-config-name"

# The name of the model that you want to host.
model_name = "the-name-of-your-model"

instance_type = "instance-type"

sagemaker_client.create_endpoint_config(
    EndpointConfigName = endpoint_config_name
    ProductionVariants=[
        {
            "VariantName": "variant1", # The name of the production variant.
            "ModelName": model_name,
            "InstanceType": instance_type, # Specify the compute instance type.
            "InitialInstanceCount": 1, # Number of instances to launch initially.
            "VolumeSizeInGB": 256, # Specify the size of the Amazon EBS volume.
            "ModelDataDownloadTimeoutInSeconds": 1800, # Specify the model download timeout in seconds.
            "ContainerStartupHealthCheckTimeoutInSeconds": 1800, # Specify the health checkup timeout in seconds
        },
    ],
)

sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)

Per ulteriori informazioni sulle chiavi per ProductionVariants, consulta ProductionVariant.

Per esempi che dimostrano come ottenere un'inferenza a bassa latenza con modelli di grandi dimensioni, consulta Esempi di inferenza AI generativa su Amazon SageMaker AI nel repository aws-samples. GitHub

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Documentazione del container LMI

Implementazione di modelli non compressi