Déploiement de modèles sur Amazon SageMaker HyperPod

Amazon va SageMaker HyperPod désormais au-delà de la formation pour proposer une plateforme d'inférence complète qui associe la flexibilité de Kubernetes à l'excellence opérationnelle des services gérés. AWS Déployez, dimensionnez et optimisez vos modèles d'apprentissage automatique avec une fiabilité de niveau professionnel en utilisant le même HyperPod calcul tout au long du cycle de vie du modèle.

Amazon SageMaker HyperPod propose des interfaces de déploiement flexibles qui vous permettent de déployer des modèles par le biais de plusieurs méthodes, notamment kubectl, le SDK Python, l'interface utilisateur Amazon SageMaker Studio ou la CLI. HyperPod Le service fournit des fonctionnalités avancées de mise à l’échelle automatique avec une allocation dynamique des ressources qui s’ajuste automatiquement en fonction de la demande. En outre, il inclut des fonctionnalités complètes d'observabilité et de surveillance qui suivent les indicateurs critiques tels que time-to-first-token la latence et l'utilisation du GPU pour vous aider à optimiser les performances.

Note

Lors d'un déploiement sur des instances dotées d'un processeur graphique, vous pouvez utiliser le partitionnement du GPU avec la technologie GPU multi-instance (MIG) pour exécuter plusieurs charges de travail d'inférence sur un seul GPU. Cela permet une meilleure utilisation du GPU et une optimisation des coûts. Pour plus d'informations sur la configuration du partitionnement du GPU, consultezUtilisation de partitions GPU dans Amazon SageMaker HyperPod.

Infrastructure unifiée pour l’entraînement et l’inférence

Optimisez votre utilisation des GPU en effectuant une transition transparente des ressources de calcul entre les charges de travail d’entraînement et d’inférence. Cela réduit le coût total de possession tout en maintenant la continuité opérationnelle.

Options de déploiement adaptées aux entreprises

Déployez des modèles provenant de sources multiples, notamment des modèles à pondération ouverte et fermée d'Amazon SageMaker JumpStart et des modèles personnalisés d'Amazon S3 et Amazon, FSx avec prise en charge des architectures d'inférence à nœud unique et à nœuds multiples.

Mise en cache de valeurs-clés (KV) hiérarchisée gérée et routage intelligent

La mise en cache KV enregistre les vecteurs clé-valeur précalculés après le traitement des jetons précédents. Lorsque le jeton suivant est traité, les vecteurs n'ont pas besoin d'être recalculés. Grâce à une architecture de mise en cache à deux niveaux, vous pouvez configurer un cache L1 qui utilise la mémoire du processeur pour une réutilisation locale à faible latence, et un cache L2 qui utilise Redis pour permettre un partage de cache évolutif au niveau des nœuds.

Le routage intelligent analyse les demandes entrantes et les dirige vers l'instance d'inférence la plus susceptible de contenir les paires clé-valeur mises en cache pertinentes. Le système examine la demande puis l'achemine selon l'une des stratégies de routage suivantes :

prefixaware— Les demandes suivantes avec le même préfixe d'invite sont acheminées vers la même instance
kvaware— Les demandes entrantes sont acheminées vers l'instance ayant le taux de réussite du cache KV le plus élevé.
session— Les demandes provenant de la même session utilisateur sont acheminées vers la même instance.
roundrobin— Répartition uniforme des requêtes sans tenir compte de l'état du cache KV.

Pour plus d'informations sur l'activation de cette fonctionnalité, consultezConfigurer la mise en cache KV et le routage intelligent pour améliorer les performances.

Support de stockage hiérarchisé avec cache L2 intégré pour la mise en cache KV

S'appuyant sur l'infrastructure de cache KV existante, intègre HyperPod désormais le stockage hiérarchisé en tant qu'option de backend L2 supplémentaire aux côtés de Redis. Grâce au stockage hiérarchisé SageMaker géré intégré, cela permet d'améliorer les performances. Cette amélioration fournit aux clients une option plus évolutive et plus efficace pour le déchargement du cache, particulièrement avantageuse pour les charges de travail d'inférence LLM à haut débit. L'intégration permet de maintenir la compatibilité avec les serveurs du modèle vLLM et les capacités de routage existants tout en offrant de meilleures performances.

Note

Nous collectons certaines mesures opérationnelles de routine afin de garantir la disponibilité des services essentiels. La création de ces métriques est entièrement automatisée et n'implique aucun examen humain de la charge de travail d'inférence du modèle sous-jacent. Ces mesures concernent les opérations de déploiement, la gestion des ressources et l'enregistrement des terminaux.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Ordonnancement topologique

Configuration de vos HyperPod clusters pour le déploiement de modèles