Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Déploiement de modèles de fondation accessibles au public à l’aide de la classe JumpStartModel
Vous pouvez déployer un algorithme intégré ou un modèle préentraîné sur un point de terminaison d' SageMaker IA en quelques lignes de code à l'aide du SageMaker Python SDK.
-
Commencez par rechercher l’ID de modèle de votre choix dans le tableau des algorithmes intégrés aux modèles pré-entraînés
. -
À l'aide de l'ID du modèle, définissez votre modèle en tant que JumpStart modèle.
from sagemaker.jumpstart.model import JumpStartModel model_id ="huggingface-text2text-flan-t5-xl"my_model = JumpStartModel(model_id=model_id) -
Utilisez la méthode
deploypour déployer automatiquement votre modèle à des fins d’inférence. Dans cet exemple, nous utilisons le modèle Hugging Face FLAN-T5 XL.predictor = my_model.deploy() -
Vous pouvez ensuite exécuter l’inférence avec le modèle déployé, à l’aide de la méthode
predict.question ="What is Southern California often abbreviated as?"response = predictor.predict(question) print(response)
Note
Cet exemple utilise le modèle de fondation FLAN-T5 XL, qui convient à un large éventail de cas d’utilisation de génération de texte, notamment les réponses à des questions, la synthèse, la création de chatbot, etc. Pour plus d’informations sur les cas d’utilisation d’un modèle, consultez Modèles de fondation disponibles.
Pour plus d'informations sur la JumpStartModel classe et ses paramètres, consultez JumpStartModel
Vérification de types d’instance par défaut
Vous pouvez éventuellement inclure des versions de modèle ou des types d’instances spécifiques lorsque vous déployez un modèle pré-entraîné à l’aide de la classe JumpStartModel. Tous les JumpStart modèles ont un type d'instance par défaut. Extrayez le type d’instance de déploiement par défaut à l’aide du code suivant :
from sagemaker import instance_types instance_type = instance_types.retrieve_default( model_id=model_id, model_version=model_version, scope="inference") print(instance_type)
Consultez tous les types d'instances pris en charge pour un JumpStart modèle donné avec la instance_types.retrieve() méthode.
Utilisation de composants d’inférence pour déployer plusieurs modèles vers un point de terminaison partagé
Un composant d'inférence est un objet d'hébergement d' SageMaker IA que vous pouvez utiliser pour déployer un ou plusieurs modèles sur un point de terminaison afin d'accroître la flexibilité et l'évolutivité. Vous devez modifier le point de terminaison endpoint_type de votre JumpStart modèle inference-component-based plutôt que le point de terminaison basé sur le modèle par défaut.
predictor = my_model.deploy( endpoint_name ='jumpstart-model-id-123456789012', endpoint_type =EndpointType.INFERENCE_COMPONENT_BASED)
Pour plus d'informations sur la création de points de terminaison avec des composants d'inférence et le déploiement de modèles d' SageMaker IA, consultez. Utilisation partagée des ressources avec plusieurs modèles
Vérification des formats d’inférence d’entrée et de sortie valides
Pour vérifier les formats d’entrée et de sortie de données valides à des fins d’inférence, vous pouvez utiliser la méthode retrieve_options() des classes Serializers et Deserializers.
print(sagemaker.serializers.retrieve_options(model_id=model_id, model_version=model_version)) print(sagemaker.deserializers.retrieve_options(model_id=model_id, model_version=model_version))
Vérification du contenu pris en charge et des types d’acceptations
De même, vous pouvez utiliser la méthode retrieve_options() pour vérifier le contenu pris en charge et les types d’acceptations pour un modèle.
print(sagemaker.content_types.retrieve_options(model_id=model_id, model_version=model_version)) print(sagemaker.accept_types.retrieve_options(model_id=model_id, model_version=model_version))
Pour plus d'informations sur les utilitaires, consultez la section Utilitaire APIs