Recommandations d’instance pour les déploiements de points de terminaison multimodèles

Plusieurs éléments doivent être pris en compte lors de la sélection d'un type d'instance SageMaker AI ML pour un point de terminaison multimodèle :

Provisionnez suffisamment de capacité Amazon Elastic Block Store (Amazon EBS) pour tous les modèles qui doivent être servis.
Équilibrez les performances (minimisez les démarrages à froid) et les coûts (ne surprovisionnez pas la capacité d'instance). Pour plus d'informations sur la taille du volume de stockage que l' SageMaker IA attache à chaque type d'instance pour un point de terminaison et pour un point de terminaison multimodèle, consultezVolumes de stockage d’instances.
Pour un conteneur configuré pour s'exécuter en mode MultiModel, le volume de stockage provisionné pour ses instances est supérieur à celui du mode SingleModel par défaut. Cela permet à d'autres modèles d'être mis en cache sur le volume de stockage d'instance qu'en mode SingleModel.

Lorsque vous choisissez un type d'instance SageMaker AI ML, tenez compte des points suivants :

Multi-model les points de terminaison sont actuellement pris en charge pour tous les types d'instances de processeur et pour les types d'instances à GPU unique.
Pour la distribution du trafic (modèles d’accès) vers les modèles que vous souhaitez héberger derrière le point de terminaison multimodèle, ainsi que la taille du modèle (nombre de modèles pouvant être chargés en mémoire sur l’instance), gardez les informations suivantes à l’esprit :
- Considérez la quantité de mémoire d'une instance comme l'espace de cache pour les modèles à charger, et considérez le nombre de vCPUs comme la limite de simultanéité pour effectuer des inférences sur les modèles chargés (en supposant que l'appel d'un modèle est lié au processeur).
- Pour les instances basées sur des processeurs, le nombre de vCPUs a une incidence sur le nombre maximal d’invocations simultanés par instance (en supposant que l’invocation d’un modèle soit lié au processeur). Un nombre plus élevé de vCPU vous permet d'appeler plus de modèles uniques simultanément.
- Pour les instances basées sur des GPU, une capacité de mémoire d'instance et de GPU supérieure vous permet d'avoir plus de modèles chargés et prêts à servir les demandes d'inférence.
- Pour les instances basées sur des processeurs et des GPU, une mémoire « slack » disponible permet que les modèles inutilisés puissent être déchargés, en particulier pour les points de terminaison multimodèles avec plusieurs instances. Si une instance ou une zone de disponibilité échoue, les modèles de ces instances seront reroutés vers d'autres instances derrière le point de terminaison.
Déterminez votre tolérance au loading/downloading temps :
- Les familles de types d'instances d (par exemple, m5d, c5d ou r5d) et g5s sont équipées d'un SSD NVMe (mémoire express non volatile), qui offre des I/O performances élevées et peut réduire le temps nécessaire pour télécharger les modèles sur le volume de stockage et pour que le conteneur charge le modèle depuis le volume de stockage.
- Comme les types d'instances d et g5 sont fournis avec un stockage SSD NVMe, SageMaker AI n'attache aucun volume de stockage Amazon EBS à ces instances de calcul ML hébergeant le point de terminaison multimodèle. Auto Scaling fonctionne mieux lorsque les modèles sont similaires en taille et homogènes, c'est-à-dire lorsqu'ils ont des exigences de ressources et de latence d'inférence similaires.

Vous pouvez également utiliser les conseils suivants pour optimiser le chargement des modèles sur vos points de terminaison multimodèles :

Choisir un type d'instance qui ne peut pas contenir tous les modèles ciblés en mémoire

Dans certains cas, vous pouvez choisir de réduire les coûts en choisissant un type d'instance qui ne peut pas conserver tous les modèles ciblés en mémoire en même temps. SageMaker L'IA décharge les modèles de manière dynamique lorsqu'il n'y a plus de mémoire disponible pour faire de la place à un nouveau modèle ciblé. Pour les modèles rarement demandés, vous sacrifiez la latence de charge dynamique. Dans les cas où les besoins de latence sont plus stricts, vous pouvez opter pour des types d'instance plus importants ou pour plus d'instances. Investir du temps à l'avance dans les tests et les analyses des performances vous aide à réussir vos déploiements de production.

Évaluation des accès au cache de votre modèle

CloudWatch Les statistiques Amazon peuvent vous aider à évaluer vos modèles. Pour plus d’informations sur les métriques que vous pouvez utilisez avec des points de terminaison multimodèles, consultez CloudWatch Métriques pour les déploiements de Multi-Model terminaux.

Vous pouvez utiliser la statistique Average de la métrique ModelCacheHit pour contrôler le ratio des demandes où le modèle est déjà chargé. Vous pouvez utiliser la statistique SampleCount de la métrique ModelUnloadingTime pour contrôler le nombre de demandes de déchargement envoyées au conteneur pendant une période donnée. Si les modèles sont déchargés trop fréquemment (indicateur de l’écrasement, où les modèles sont déchargés et chargés à nouveau parce qu’il n’y a pas suffisamment d’espace cache pour le jeu de modèles de travail), envisagez d’utiliser un type d’instance plus grand avec plus de mémoire ou d’augmenter le nombre d’instances derrière le point de terminaison multimodèle. Pour les points de terminaison multimodèles avec plusieurs instances, sachez qu’un modèle peut être chargé sur plus d’une instance.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Algorithmes, cadres et instances pris en charge pour les points de terminaison multimodèles

Création d'un Multi-Model point de terminaison