Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Déployez des modèles à JumpStart l'aide d'Amazon SageMaker Studio
Les étapes suivantes vous montrent comment déployer des modèles à JumpStart l'aide d'Amazon SageMaker Studio.
Conditions préalables
Vérifiez que vous avez configuré les fonctionnalités d'inférence sur vos SageMaker HyperPod clusters Amazon. Pour de plus amples informations, veuillez consulter Configuration de vos HyperPod clusters pour le déploiement de modèles.
Création d'un HyperPod déploiement
-
Dans Amazon SageMaker Studio, ouvrez la page de JumpStartdestination depuis le volet de navigation de gauche.
-
Sous Tous les modèles publics, choisissez le modèle que vous souhaitez déployer.
Note
Si vous avez sélectionné un modèle à accès contrôlé, vous devez accepter le contrat de licence utilisateur final (CLUF).
-
Sélectionnez SageMaker HyperPod.
-
Sous Paramètres de déploiement, je JumpStart recommanderai une instance à déployer. Vous pouvez modifier ces paramètres, si nécessaire.
-
Si vous modifiez le type d'instance, assurez-vous qu'il est compatible avec le HyperPod cluster choisi. S'il n'existe aucune instance compatible, vous devez sélectionner un nouveau HyperPod cluster ou contacter votre administrateur pour ajouter des instances compatibles au cluster.
-
Pour hiérarchiser le déploiement du modèle, installez le module complémentaire de gouvernance des tâches, créez des allocations de calcul et configurez le classement des tâches pour la politique de cluster. Une fois cela fait, vous devriez voir une option permettant de sélectionner une priorité pour le déploiement du modèle, qui peut être utilisée pour la préemption d’autres déploiements et tâches sur le cluster.
-
Entrez l’espace de noms auquel votre administrateur vous a donné accès. Vous devrez peut-être contacter directement votre administrateur pour obtenir l’espace de noms exact. Une fois qu’un espace de noms valide est fourni, le bouton Déployer doit être activé pour déployer le modèle.
-
Si votre type d'instance est partitionné (MIG activé), sélectionnez un type de partition GPU.
-
Si vous souhaitez activer le routage L2 KVCache ou intelligent pour accélérer l'inférence LLM, activez-les. Par défaut, seul le cache KV L1 est activé. Pour plus de détails sur le KVCache routage intelligent, consultez la section Déploiement SageMaker HyperPod du modèle.
-
-
Choisissez Déployer et attendez que le point de terminaison soit créé.
-
Une fois le point de terminaison créé, sélectionnez Tester l’inférence.
Modifier un HyperPod déploiement
-
Dans Amazon SageMaker Studio, sélectionnez Compute, puis HyperPodclusters dans le volet de navigation de gauche.
-
Sous Déploiements, choisissez le déploiement du HyperPod cluster que vous souhaitez modifier.
-
À partir de l’icône aux points de suspension verticaux (⋮), choisissez Modifier.
-
Sous Paramètres de déploiement, vous pouvez activer ou désactiver Auto Scaling et modifier le nombre Réplicas max.
-
Cliquez sur Enregistrer.
-
Le statut passera à Mise à jour. Lorsqu’il redevient En service, vos modifications sont terminées et un message de confirmation s’affiche.
Supprimer un HyperPod déploiement
-
Dans Amazon SageMaker Studio, sélectionnez Compute, puis HyperPodclusters dans le volet de navigation de gauche.
-
Sous Déploiements, choisissez le déploiement du HyperPod cluster que vous souhaitez modifier.
-
À partir de l’icône aux points de suspension verticaux (⋮), choisissez Supprimer.
-
Dans la fenêtre Supprimer HyperPod le déploiement, cochez la case.
-
Sélectionnez Delete (Supprimer).
-
Le statut passera à Suppression. Une fois le HyperPod déploiement supprimé, vous verrez un message le confirmant.