Déploiement de modèles de fondation et de modèles personnalisés et peaufinés

Que vous déployiez des modèles de base ouverts ou fermés préentraînés d'Amazon SageMaker JumpStart ou que vous déployiez vos propres modèles personnalisés ou affinés stockés dans Amazon S3 ou Amazon FSx, SageMaker HyperPod vous disposez de l'infrastructure flexible et évolutive dont vous avez besoin pour les charges de travail d'inférence de production.

	Déployez des modèles de fondations ouvertes et fermées à partir de JumpStart	Déploiement de modèles personnalisés et peaufinés depuis Amazon S3 et Amazon FSx	Déployez des modèles à partir d'un stockage NVMe local
Description	Déployez à partir d’un catalogue complet de modèles de fondation pré-entraînés avec des politiques d’optimisation et de mise à l’échelle automatiques adaptées à chaque famille de modèles.	Apportez vos propres modèles personnalisés et affinés et utilisez l'infrastructure d'entreprise pour des SageMaker HyperPod inférences à l'échelle de production. Choisissez entre un stockage rentable avec Amazon S3 ou un système de fichiers hautes performances avec Amazon FSx.	Chargez les pondérations des modèles à partir du stockage NVMe local d'un nœud afin d'éliminer la latence du réseau lors du démarrage du pod. Utile pour le dimensionnement automatique des événements, la mise à l'échelle des charges de travail à partir de zéro et les basculements sensibles à la latence.
Principaux avantages	One-click déploiement via l'interface utilisateur d'Amazon SageMaker Studio Auto-scaling en fonction des demandes entrantes activées automatiquement Pre-optimized conteneurs et configurations pour chaque famille de modèles Gestion des CLUF pour les modèles à accès contrôlé	Prise en charge de plusieurs systèmes dorsaux de stockage : Amazon S3, Amazon FSx Prise en charge flexible de conteneurs et de cadres Politiques de mise à l’échelle personnalisées en fonction des caractéristiques de votre modèle	Réduction du temps de démarrage à froid grâce à la lecture locale des poids Aucune dépendance au réseau pour le chargement des modèles Solution de repli optionnelle vers Amazon S3 lorsque le cache NVMe est manquant Volumes Kubernetes personnalisés et InitContainers
Options de déploiement	Amazon SageMaker Studio pour le déploiement visuel kubectl pour les opérations Kubernetes-native Kit SDK Python pour l’intégration programmatique HyperPod CLI pour l'automatisation par ligne de commande	kubectl pour les opérations Kubernetes-native Kit SDK Python pour l’intégration programmatique HyperPod CLI pour l'automatisation par ligne de commande	kubectl pour les opérations Kubernetes-native Kit SDK Python pour l’intégration programmatique HyperPod CLI pour l'automatisation par ligne de commande

Les sections suivantes vous expliquent comment déployer des modèles depuis Amazon SageMaker JumpStart, Amazon S3 et Amazon FSx, ainsi que depuis un stockage NVMe local.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Configuration de vos HyperPod clusters pour le déploiement de modèles

Déployez des modèles à JumpStart l'aide de Studio