Voraussetzungen für Auto Scaling
Bevor Sie Auto Scaling verwenden können, müssen Sie bereits einen Modellendpunkt mit Amazon SageMaker AI bereitgestellt haben. Sie können mehrere Modellversionen für denselben Endpunkt haben. Jedes Modell wird als Produktionsvariante (Modellvariante) bezeichnet. Weitere Informationen zur Bereitstellung eines Modellendpunkts finden Sie unter Bereitstellen des Modells für Hosting-Services von SageMaker AI.
Auto Scaling können Sie mit Hilfe der SageMaker-AI-Konsole, der AWS Command Line Interface (AWS CLI) oder einem AWS SDK über die Application Auto Scaling API für ein Modell aktivieren.
-
Wenn Sie zum ersten Mal die Skalierung für ein Modell konfigurieren, empfehlen wir Ihnen Konfigurieren Sie Auto Scaling für Modelle über die Konsole.
-
Bei der Verwendung der AWS CLI oder der API zum Application Auto Scaling wird zunächst das Modell als skalierbares Ziel registriert, die Skalierungsrichtlinie festgelegt und dann angewendet. Wählen Sie in der SageMaker-AI-Konsole unter Inferenz im Navigationsbereich die Option Endpunkte aus. Suchen Sie den Endpunktnamen Ihres Modells und wählen Sie ihn aus, um den Variantennamen zu finden. Sie müssen sowohl den Endpunktnamen als auch den Variantennamen angeben, um Auto Scaling für ein Modell zu aktivieren.
Auto Scaling wird durch eine Kombination der APIs von Amazon SageMaker AI, Amazon CloudWatch und Application Auto Scaling ermöglicht. Informationen zu den erforderlichen Mindestberechtigungen finden Sie unter Beispiele für identitätsbasierte Richtlinien für Application Auto Scaling im Benutzerhandbuch zu Application Auto Scaling.
Die SagemakerFullAccessPolicy IAM-Richtlinie beinhaltet alle zur Durchführung von Auto Scaling erforderlichen IAM-Berechtigungen. Weitere Informationen zu IAM-Berechtigungen für SageMaker AI finden Sie unter So verwenden Sie SageMaker AI-Ausführungsrollen.
Wenn Sie Ihre eigene Berechtigungsrichtlinie verwenden, müssen Sie die folgenden Berechtigungen hinzufügen:
Servicegebundene Rolle
Auto Scaling verwendet die serviceverknüpfte Rolle AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint. Diese Service-verknüpfte Rolle gewährt Application Auto Scaling die Berechtigung zum Beschreiben der Alarme für die Richtlinien, zum Überwachen der aktuellen Kapazitätsstufen und zum Skalieren der Zielressource. Diese Rolle wird automatisch für Sie erstellt. Damit die automatische Rollenerstellung erfolgreich ist, müssen Sie über die Berechtigung für die Aktion iam:CreateServiceLinkedRole verfügen. Weitere Informationen finden Sie unter Serviceverknüpfte Rollen im Application Auto Scaling-Benutzerhandbuch.