Présentation des politiques d’autoscaling - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Présentation des politiques d’autoscaling

Pour utiliser l’autoscaling, vous définissez une politique de mise à l’échelle automatique qui ajoute et supprime le nombre d’instances pour votre variante de production en réponse aux charges de travail réelles.

Pour procéder à une mise à l’échelle automatique en fonction de l’évolution de la charge de travail, vous avez deux options : le suivi de cible et les politiques de mise à l’échelle par étapes.

Dans la plupart des cas, nous vous recommandons d’utiliser des politiques de mise à l’échelle du suivi de la cible. Avec le suivi des cibles, vous choisissez une CloudWatch métrique Amazon et une valeur cible. Auto Scaling crée et gère les CloudWatch alarmes relatives à la politique de dimensionnement et calcule l'ajustement de mise à l'échelle en fonction de la métrique et de la valeur cible. La stratégie ajoute et supprime le nombre d’instances comme requis pour maintenir la métrique à la valeur cible spécifiée ou à une valeur proche. Par exemple, une stratégie de dimensionnement qui utilise la métrique InvocationsPerInstance prédéfinie avec une valeur cible égale à 70 peut maintenir InvocationsPerInstance à la valeur 70 ou à une valeur proche. Pour plus d’informations, consultez Stratégies de mise à l’échelle du suivi des cibles dans le Guide de l’utilisateur Application Auto Scaling.

Vous pouvez utiliser la mise à l’échelle par étapes lorsque vous avez besoin d’une configuration avancée, par exemple en spécifiant le nombre d’instances à déployer dans diverses conditions. Par exemple, vous devez utiliser la mise à l’échelle par étapes si vous souhaitez permettre à un point de terminaison d’augmenter horizontalement à partir de zéro instance active. Pour une présentation des stratégies de mise à l’échelle par étapes et de leur fonctionnement, consultez Stratégies de mise à l’échelle par étapes dans le Guide de l’utilisateur Application Auto Scaling.

Pour créer une stratégie de mise à l’échelle de suivi des cibles, vous devez spécifier les éléments suivants :

  • Métrique : CloudWatch métrique à suivre, telle que le nombre moyen d'appels par instance.

  • Valeur cible : la valeur cible de la métrique, telle que 70 invocations par instance et par minute.

Vous pouvez créer des stratégies de suivi des objectifs de la mise à l’échelle avec des métriques prédéfinies ou des métriques personnalisées. Une métrique prédéfinie est définie dans une énumération afin que vous puissiez la spécifier par son nom dans le code ou l'utiliser dans la console SageMaker AI. Vous pouvez également utiliser l’ AWS CLI ou l’API Application Auto Scaling pour appliquer une stratégie de mise à l’échelle avec suivi de cible basée sur une métrique personnalisée ou prédéfinie.

Notez que les activités de mise à l’échelle sont effectuées avec des temps de stabilisation entre elles afin d’éviter des fluctuations rapides de capacité. Vous pouvez éventuellement configurer les temps de stabilisation de votre stratégie de mise à l’échelle.

Pour plus d’informations sur les concepts clés d’autoscaling, consultez la section suivante.

Mise à l’échelle basée sur une planification

Vous pouvez également créer des actions planifiées pour effectuer des activités de mise à l’échelle à des heures spécifiques. Vous pouvez créer des actions planifiées pour une mise à l’échelle unique ou selon une planification récurrente. Après l’exécution d’une action planifiée, votre politique de mise à l’échelle peut continuer à prendre des décisions sur l’opportunité de procéder à une mise à l’échelle dynamique au fil des modifications de la charge de travail. Le dimensionnement planifié ne peut être géré qu'à partir de l'API Application Auto Scaling AWS CLI ou de l'API Application Auto Scaling. Pour plus d’informations, voir Mise à l’échelle planifiée dans le Guide de l’utilisateur Application Auto Scaling..

Limites de mise à l’échelle minimale et maximale

Lorsque vous configurez l’autoscaling, vous devez spécifier vos limites de mise à l’échelle avant de créer une politique de mise à l’échelle. Vous définissez des limites séparément pour les valeurs minimale et maximale.

La valeur minimale doit être au moins égale à 1, et égale ou inférieure à la valeur spécifiée pour la valeur maximale.

La valeur maximale doit être égale ou supérieure à la valeur spécifiée pour la valeur minimale. SageMaker AI Auto Scaling n'impose pas de limite pour cette valeur.

Pour déterminer les limites de mise à l’échelle dont vous avez besoin pour un trafic classique, testez votre configuration d’autoscaling avec le débit attendu de trafic pour votre modèle.

Si le trafic d'une variante devient nul, l' SageMaker IA s'adapte automatiquement au nombre minimum d'instances spécifié. Dans ce cas, SageMaker l'IA émet des métriques d'une valeur nulle.

Il existe trois options pour définir la capacité minimale et la capacité maximale :

  1. Utilisez la console pour mettre à jour les paramètres Nombre minimal d’instance et Nombre maximal d’instances.

  2. Utilisez les options AWS CLI et incluez les --max-capacity options --min-capacity et lors de l'exécution de la register-scalable-targetcommande.

  3. Appelez l'RegisterScalableTargetAPI et spécifiez les MaxCapacity paramètres MinCapacity et.

Astuce

Vous pouvez augmenter horizontalement manuellement en augmentant la valeur minimale ou réduire horizontalement manuellement en diminuant la valeur maximale.

Temps de stabilisation

Un temps de stabilisation permet de se protéger contre le surdimensionnement lorsque votre modèle est en cours de réduction horizontale (réduction de la capacité) ou d’augmentation horizontale (augmentation de la capacité). Pour ce faire, il ralentit les activités de mise à l’échelle ultérieures jusqu’à l’expiration de la période. Il bloque spécifiquement la suppression des instances pour les demandes de réduction horizontale et limite la création d’instances pour les demandes d’augmentation horizontale. Pour plus d’informations, consultez Définir les temps de stabilisation dans le Guide de l’utilisateur Application Auto Scaling.

Vous configurez le temps de stabilisation dans votre stratégie de mise à l’échelle.

Si vous ne spécifiez pas un temps de stabilisation de réduction ou d’augmentation horizontale, votre stratégie de mise à l’échelle utilise la valeur par défaut, qui est de 300 secondes pour chaque.

Si les instances sont ajoutées ou supprimées trop rapidement lorsque vous testez votre configuration de mise à l’échelle, envisagez d’augmenter la valeur. Vous pouvez voir ce comportement si le trafic vers votre modèle présente un grand nombre de pics, ou si vous avez plusieurs stratégies de mise à l’échelle définies pour une variante.

Si les instances ne sont pas ajoutées assez rapidement pour répondre à une augmentation du trafic, envisagez de diminuer la valeur.

Pour plus d’informations sur la configuration de l’autoscaling, consultez les ressources suivantes :

Note

SageMaker L'IA a récemment introduit de nouvelles fonctionnalités d'inférence basées sur des points de terminaison d'inférence en temps réel. Vous créez un point de terminaison SageMaker AI avec une configuration de point de terminaison qui définit le type d'instance et le nombre d'instances initial pour le point de terminaison. Créez ensuite un composant d'inférence, qui est un objet d'hébergement d' SageMaker IA que vous pouvez utiliser pour déployer un modèle sur un point de terminaison. Pour plus d'informations sur la mise à l'échelle des composants d'inférence, voir L'SageMaker IA ajoute de nouvelles fonctionnalités d'inférence pour aider à réduire les coûts de déploiement et la latence des modèles de base et à réduire les coûts de déploiement des modèles de 50 % en moyenne en utilisant les dernières fonctionnalités de l' SageMaker IA sur le AWS blog.