Options de déploiement de modèles dans Amazon SageMaker AI

Après avoir entraîné votre modèle de machine learning, vous pouvez le déployer à l’aide d’Amazon SageMaker AI afin d’obtenir des prédictions. Amazon SageMaker AI prend en charge les méthodes suivantes pour déployer un modèle et dépendent de votre cas d’utilisation :

Pour les points de terminaison en temps réel persistants qui font une prédiction à la fois, utilisez les services d’hébergement en temps réel SageMaker AI. Consultez Inférence en temps réel.
Pour les charges de travail qui ont des périodes d’inactivité entre les pics de trafic et qui peuvent tolérer des démarrages à froid, utilisez l’inférence sans serveur. Consultez Déployez des modèles avec Amazon SageMaker Serverless Inference.
Pour les demandes avec des données utiles importantes allant jusqu’à 1 Go, des temps de traitement longs et des exigences de latence en temps quasi réel, utilisez Amazon SageMaker Asynchronous Inference. Consultez Inférence asynchrone.
Pour obtenir des prédictions pour un jeu de données tout entier, utilisez la transformation par lots SageMaker AI. Consultez Transformation par lots à des fins d'inférence avec Amazon AI SageMaker.

SageMaker AI propose également des fonctions permettant de gérer les ressources et d’optimiser les performances d’inférence lors du déploiement de modèles de machine learning :

Pour gérer les modèles sur les appareils en périphérie afin de vous permettre d’optimiser, de sécuriser, de contrôler et de maintenir des modèles de machine learning sur des flottes d’appareils en périphérie, consultez Modélisez le déploiement à la périphérie avec SageMaker Edge Manager. Cela s’applique aux appareils en périphérie tels que les caméras intelligentes, les robots, les ordinateurs personnels et les appareils mobiles.
Pour optimiser les modèles Gluon, Keras, MXNet, PyTorch, TensorFlow, TensorFlow-Lite et ONNX pour l’inférence sur les machines Android, Linux et Windows basées sur des processeurs Ambarella, ARM, Intel, Nvidia, NXP, Qualcomm, Texas Instruments et Xilinx, consultez Optimisation des performances des modèles avec SageMaker Neo.

Pour plus d’informations sur l’ensemble de ces options de déploiement, consultez Déploiement de modèles pour l'inférence.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Déploiement de modèles pour l'inférence

Options de déploiement des modèles et d’obtention d’inférences