Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Paramètres de point de terminaison SageMaker AI pour l’inférence de modèles de grande taille
Vous pouvez personnaliser les paramètres suivants pour faciliter l’inférence de modèles de grande taille (LMI) à faible latence avec SageMaker AI :
-
Taille maximale du volume Amazon EBS sur l'instance (
VolumeSizeInGB) : si la taille du modèle est supérieure à 30 Go et que vous utilisez une instance sans disque local, vous devez augmenter ce paramètre pour qu'il soit légèrement supérieur à la taille de votre modèle. -
Quota d'expiration de surveillance de l'état (
ContainerStartupHealthCheckTimeoutInSeconds) : si votre conteneur est correctement configuré et que les journaux CloudWatch indiquent un quota d'expiration pour la surveillance de l'état, vous devez augmenter ce quota afin que le conteneur dispose de suffisamment de temps pour répondre aux surveillances de l'état. -
Quota d'expiration de téléchargement de modèle (
ModelDataDownloadTimeoutInSeconds) : si la taille de votre modèle est supérieure à 40 Go, vous devez augmenter ce quota afin de disposer de suffisamment de temps pour télécharger le modèle depuis Amazon S3 vers l'instance.
L'extrait de code suivant montre comment configurer par programmation les paramètres susmentionnés. Remplacez le texte des espaces réservés en italique dans l'exemple par vos propres informations.
import boto3 aws_region = "aws-region" sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # The name of the endpoint. The name must be unique within an AWS Region in your AWS account. endpoint_name = "endpoint-name" # Create an endpoint config name. endpoint_config_name = "endpoint-config-name" # The name of the model that you want to host. model_name = "the-name-of-your-model" instance_type = "instance-type" sagemaker_client.create_endpoint_config( EndpointConfigName = endpoint_config_name ProductionVariants=[ { "VariantName": "variant1", # The name of the production variant. "ModelName": model_name, "InstanceType": instance_type, # Specify the compute instance type. "InitialInstanceCount":1, # Number of instances to launch initially. "VolumeSizeInGB":256, # Specify the size of the Amazon EBS volume. "ModelDataDownloadTimeoutInSeconds":1800, # Specify the model download timeout in seconds. "ContainerStartupHealthCheckTimeoutInSeconds":1800, # Specify the health checkup timeout in seconds }, ], ) sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)
Pour plus d’informations sur les clés ProductionVariants, consultez ProductionVariant.
Pour des exemples illustrant comment obtenir une inférence à faible latence avec de grands modèles, consultez Exemples d’inférence d’IA générative sur Amazon SageMaker AI