Mise à jour des points de terminaison qui utilisent l’autoscaling - Amazon SageMaker AI

Mise à jour des points de terminaison qui utilisent l’autoscaling

Lorsque vous mettez à jour un point de terminaison, Application Auto Scaling vérifie si l’un des modèles de ce point de terminaison est une cible d’autoscaling. Si la mise à jour modifie le type d’instance d’un modèle qui est une cible de l’autoscaling, la mise à jour échoue.

Dans AWS Management Console, vous pouvez voir un avertissement indiquant que vous devez annuler l’inscription du modèle à l’autoscaling avant de pouvoir le mettre à jour. Si vous essayez de mettre à jour le point de terminaison en appelant l’API UpdateEndpoint, l’appel échoue. Avant de mettre à jour le point de terminaison, supprimez les stratégies de mise à l’échelle configurées et désinscrivez la variante en tant que cible évolutive en appelant l’action d’API Application Auto Scaling DeregisterScalableTarget. Une fois que vous avez mis à jour le point de terminaison, vous pouvez enregistrer la variante mise à jour en tant que cible évolutive et attacher une stratégie de mise à l’échelle.

Il y a une exception. Si vous modifiez le modèle d’une variante configurée pour l’autoscaling, l’autoscaling Amazon SageMaker AI autorise la mise à jour. Cela est dû au fait que la modification du modèle n’affecte pas généralement suffisamment les performances pour modifier la mise à l’échelle. Si vous mettez à jour un modèle pour une variante configurée pour l’autoscaling, vérifiez que la modification du modèle n’a pas d’incidence significative sur les performances et le comportement de mise à l’échelle.

Lorsque vous mettez à jour les points de terminaison SageMaker AI auxquels l’autoscaling est appliqué, effectuez les opérations suivantes :

Pour mettre à jour un point de terminaison auquel l’autoscaling est appliqué
  1. Annulez l’inscription du point de terminaison en tant que cible évolutive en appelant DeregisterScalableTarget.

  2. Étant donné que l’autoscaling est bloqué pendant l’opération de mise à jour (ou si vous avez désactivé l’autoscaling à l’étape précédente), vous pouvez prendre la précaution supplémentaire d’augmenter le nombre d’instances de votre point de terminaison pendant la mise à jour. Pour cela, mettez à jour le nombre d’instances pour les variantes de production hébergées sur le point de terminaison en appelant UpdateEndpointWeightsAndCapacities.

  3. Appelez DescribeEndpoint de façon répétée jusqu’à ce que la valeur du champ EndpointStatus de la réponse soit InService.

  4. Appelez DescribeEndpointConfig pour obtenir les valeurs de la configuration du point de terminaison actuel.

  5. Créez une configuration de point de terminaison en appelant CreateEndpointConfig. Pour les variantes de production où vous souhaitez conserver le nombre ou la pondération d’instance existant(e), utilisez le même nom de variante que celui de la réponse de l’appel à DescribeEndpointConfig à l’étape précédente. Pour toutes les autres valeurs, utilisez les valeurs que vous avez obtenues comme réponse lorsque vous avez appelé DescribeEndpointConfig lors de l’étape précédente.

  6. Mettez à jour le point de terminaison en appelant UpdateEndpoint. Spécifiez la configuration du point de terminaison que vous avez créée à l’étape précédente comme champ EndpointConfig. Si vous souhaitez conserver les propriétés de variante telles que le nombre d’instances ou la pondération, définissez la valeur du paramètre RetainAllVariantProperties sur True. Ce paramètre spécifie que les variantes de production portant le même nom seront mises à jour avec le nombre DesiredInstanceCount le plus récent de la réponse de l’appel à DescribeEndpoint, quelles que soient les valeurs du champ InitialInstanceCount dans le nouveau EndpointConfig.

  7. (Facultatif) Réactivez l’autoscaling en appelant RegisterScalableTarget et PutScalingPolicy.

Note

Les étapes 1 et 7 sont obligatoires uniquement si vous mettez à jour un point de terminaison avec les modifications suivantes :

  • Modification du type d’instance d’une variante de production dont l’autoscaling est configuré

  • Suppression d’une variante de production dont l’autoscaling est configuré.