Invocation d’un point de terminaison multi-conteneurs avec invocation directe - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Invocation d’un point de terminaison multi-conteneurs avec invocation directe

SageMaker Les points de terminaison multi-conteneurs basés sur l'IA permettent aux clients de déployer plusieurs conteneurs pour déployer différents modèles sur un point de terminaison SageMaker IA. Vous pouvez héberger 15 conteneurs d’inférence différents au maximum sur un seul point de terminaison. L’invocation directe vous permet d’envoyer une demande à un conteneur d’inférence spécifique hébergé sur un point de terminaison multi-conteneurs.

Pour invoquer un point de terminaison multi-conteneurs avec invocation directe, appelez invoke_endpoint comme vous invoqueriez n’importe quel autre point de terminaison, et spécifiez le conteneur que vous voulez invoquer à l’aide du paramètre TargetContainerHostname.

L’exemple suivant invoque directement le secondContainer d’un point de terminaison multi-conteneurs afin d’obtenir une prédiction.

import boto3 runtime_sm_client = boto3.Session().client('sagemaker-runtime') response = runtime_sm_client.invoke_endpoint( EndpointName ='my-endpoint', ContentType = 'text/csv', TargetContainerHostname='secondContainer', Body = body)

Pour chaque demande d’invocation directe envoyée à un point de terminaison multi-conteneurs, seul le conteneur portant le TargetContainerHostname traite la demande d’invocation. Des erreurs de validation se produiront si vous effectuez l’une des opérations suivantes :

  • Vous spécifiez un TargetContainerHostname qui n’existe pas dans le point de terminaison.

  • Vous ne spécifiez pas de valeur pour TargetContainerHostname dans une demande envoyée à un point de terminaison configuré pour l’invocation directe.

  • Vous spécifiez une valeur pour TargetContainerHostname dans une demande envoyée à un point de terminaison qui n’est pas configuré pour l’invocation directe.