Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Parametri degli endpoint di SageMaker AI per l’inferenza di modelli di grandi dimensioni
Puoi personalizzare i seguenti parametri per facilitare l’inferenza di modelli di grandi dimensioni (LMI) a bassa latenza con SageMaker AI:
-
Dimensione massima del volume Amazon EBS sull'istanza (
VolumeSizeInGB): se la dimensione del modello è superiore a 30 GB e stai utilizzando un'istanza senza un disco locale, devi aumentare questo parametro in modo che sia leggermente superiore alla dimensione del tuo modello. -
Quota di timeout del controllo dell’integrità (
ContainerStartupHealthCheckTimeoutInSeconds): se il container è configurato correttamente e i log di CloudWatch indicano un timeout per il controllo dell’integrità, devi aumentare questa quota in modo che il container abbia abbastanza tempo per rispondere ai controlli dell’integrità. -
Quota di timeout per il download del modello (
ModelDataDownloadTimeoutInSeconds): se la dimensione del modello è superiore a 40 GB, devi aumentare questa quota per avere tempo sufficiente per scaricare il modello da Amazon S3 sull’istanza.
Il seguente frammento di codice mostra come configurare in modo programmatico i parametri sopra menzionati. Sostituisci il testo segnaposto in corsivo nell’esempio con le tue informazioni.
import boto3 aws_region = "aws-region" sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # The name of the endpoint. The name must be unique within an AWS Region in your AWS account. endpoint_name = "endpoint-name" # Create an endpoint config name. endpoint_config_name = "endpoint-config-name" # The name of the model that you want to host. model_name = "the-name-of-your-model" instance_type = "instance-type" sagemaker_client.create_endpoint_config( EndpointConfigName = endpoint_config_name ProductionVariants=[ { "VariantName": "variant1", # The name of the production variant. "ModelName": model_name, "InstanceType": instance_type, # Specify the compute instance type. "InitialInstanceCount":1, # Number of instances to launch initially. "VolumeSizeInGB":256, # Specify the size of the Amazon EBS volume. "ModelDataDownloadTimeoutInSeconds":1800, # Specify the model download timeout in seconds. "ContainerStartupHealthCheckTimeoutInSeconds":1800, # Specify the health checkup timeout in seconds }, ], ) sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)
Per ulteriori informazioni sulle chiavi per ProductionVariants, consulta ProductionVariant.
Per esempi che dimostrano come ottenere un’inferenza a bassa latenza con modelli di grandi dimensioni, consulta Generative AI Inference Examples on Amazon SageMaker AI