Zeitplanbasierte Skalierung Mindest- und Höchstwerte für die Skalierung Ruhephase Zugehörige Ressourcen

Überblick über Auto-Scaling-Richtlinien

Um Auto Scaling zu verwenden, definieren Sie eine Skalierungsrichtlinie, die die Anzahl der Instances für Ihre Produktionsvariante als Reaktion auf die tatsächlichen Workloads erhöht oder verringert.

Für die automatische Skalierung bei Veränderungen der Workload haben Sie zwei Optionen: Zielverfolgungs-Skalierungsrichtlinien oder Richtlinien zur schrittweisen Skalierung.

In den meisten Fällen empfehlen wir die Verwendung von Zielverfolgungs-Skalierungsrichtlinien. Bei der Zielverfolgung wählen Sie eine CloudWatch Amazon-Metrik und einen Zielwert aus. Auto Scaling erstellt und verwaltet die CloudWatch Alarme für die Skalierungsrichtlinie und berechnet die Skalierungsanpassung auf der Grundlage der Metrik und des Zielwerts. Durch die Richtlinie werden so viele Instances wie erforderlich hinzugefügt und entfernt, damit die Metrik auf oder nahe am Zielwert gehalten wird. Hierbei kann z. B. eine Skalierungsrichtlinie, die die vorab definierte InvocationsPerInstance-Kennzahl mit einem Zielwert von 70 verwendet, InvocationsPerInstance auf oder fast auf 70 halten. Weitere Informationen finden Sie in den Skalierungsrichtlinien für die Ziel-Nachverfolgung im Benutzerhandbuch für Application Auto Scaling.

Sie können die schrittweise Skalierung verwenden, wenn Sie eine erweiterte Konfiguration benötigen, z. B. angeben, wie viele Instances unter welchen Bedingungen bereitgestellt werden sollen. Die schrittweise Skalierung ist beispielsweise dann erforderlich, wenn ein Endpunkt in der Lage sein soll, von null aktiven Instances aus aufzuskalieren. Einen Überblick über die Richtlinien zur schrittweisen Skalierung und ihre Funktionsweise finden Sie unter Richtlinien zur schrittweisen Skalierung im Benutzerhandbuch zum Auto Scaling von Anwendungen.

Zum Erstellen einer Skalierungsrichtlinie für die Ziel-Nachverfolgung geben Sie Folgendes an:

Metrik — Die zu verfolgende CloudWatch Metrik, z. B. die durchschnittliche Anzahl von Aufrufen pro Instance.
Zielwert – der Zielwert für die Metrik, z. B. 70 Aufrufe pro Instance pro Minute

Sie können Skalierungsrichtlinien zur Zielverfolgung mit vordefinierten oder benutzerdefinierten Metriken erstellen. Eine vordefinierte Metrik ist in einer Aufzählung definiert, sodass Sie sie im Code namentlich angeben oder in der SageMaker AI-Konsole verwenden können. Alternativ können Sie entweder die AWS CLI oder die API zum Auto Scaling von Anwendungen verwenden, um eine Skalierungsrichtlinie für die Zielnachverfolgung anzuwenden, die auf einer vor- oder benutzerdefinierten Metrik basiert.

Beachten Sie, dass den Skalierungsaktivitäten Ruhephasen liegen, um schnelle Kapazitätsschwankungen zu vermeiden. Sie können die Ruhephasen für Ihre Richtlinie optional konfigurieren.

Weitere Informationen zu den Schlüsselkonzepten des Auto Scaling finden Sie im folgenden Abschnitt.

Zeitplanbasierte Skalierung

Sie können auch geplante Aktionen erstellen, um Skalierungsaktivitäten zu bestimmten Zeitpunkten durchzuführen. Sie können geplante Aktionen erstellen, die nur einmal oder nach einem wiederkehrenden Zeitplan skaliert werden. Nachdem eine geplante Aktion ausgeführt wurde, kann Ihre Skalierungsrichtlinie weiterhin Entscheidungen darüber treffen, ob eine dynamische Skalierung erfolgen soll, wenn sich die Workload ändert. Die geplante Skalierung kann nur über die AWS CLI oder die Application Auto Scaling API verwaltet werden. Weitere Informationen finden Sie unter Geplante Skalierung im Benutzerhandbuch für Application Auto Scaling.

Mindest- und Höchstwerte für die Skalierung

Bei der Konfiguration von Auto Scaling müssen Sie Ihre Skalierungsgrenzen angeben, bevor Sie eine Skalierungsrichtlinie erstellen. Sie legen Grenzwerte für die Mindest- und die Höchstwerte separat fest.

Der Mindestwert muss mindestens 1 betragen und gleich oder kleiner sein als der Wert, der als Höchstwert angegeben ist.

Der Höchstwert muss gleich oder größer als der für den Minimalwert angegebene Wert sein. SageMaker AI Auto Scaling erzwingt kein Limit für diesen Wert.

Um die Skalierungsgrenzen zu bestimmen, die Sie für einen typischen Datenverkehr benötigen, testen Sie Ihre Auto-Scaling-Konfiguration mit der zu erwartenden Rate des Datenverkehrs für Ihr Modell.

Wenn der Traffic einer Variante Null wird, skaliert SageMaker KI automatisch auf die angegebene Mindestanzahl von Instanzen. In diesem Fall gibt SageMaker KI Metriken mit einem Wert von Null aus.

Es gibt drei Optionen für die Angabe der minimalen und maximalen Kapazität:

Verwenden Sie die Konsole, um die Einstellungen für Minimale Instance-Anzahl und Maximale Instance-Anzahl zu aktualisieren.
Verwenden Sie die --max-capacity Optionen AWS CLI und include the --min-capacity und, wenn Sie den register-scalable-targetBefehl ausführen.
Rufen Sie die RegisterScalableTargetAPI auf und geben Sie die MaxCapacity Parameter MinCapacity und an.

Tipp

Sie können manuell aufskalieren, indem Sie den Mindestwert erhöhen, oder manuell abskalieren, indem Sie den Höchstwert verringern.

Ruhephase

Eine Ruhephase wird verwendet, um vor einer Überskalierung zu schützen, wenn Ihr Modell abskaliert (die Kapazität reduziert) oder aufskaliert (die Kapazität erhöht). Dabei werden nachfolgende Skalierungsaktivitäten bis zum Ablauf der Phase verlangsamt. Auf diese Weise wird die Löschung von Instances für Abskalieranfragen blockiert und die Erstellung von Instances für Aufskalieranfragen wird begrenzt. Weitere Informationen finden Sie unter Definieren von Ruhephasen im Benutzerhandbuch zum Auto Scaling von Anwendungen.

Sie können die Ruhephase in Ihrer Skalierungsrichtlinie konfigurieren.

Wenn Sie keine Ruhephase zum Abskalieren bzw. Aufskalieren festlegen, verwendet die Skalierungsrichtlinie für jede Aktivität den Standardwert von 300 Sekunden.

Werden Instances zu schnell hinzugefügt oder entfernt, während Sie Ihre Skalierungskonfiguration testen, dann denken Sie daran, diesen Wert zu erhöhen. Sie können dieses Verhalten beobachten, wenn der Datenverkehr in Ihrem Modell zu viele Spitzen aufweist, oder wenn Sie mehrere Skalierungsrichtlinien für eine Variante festgelegt haben.

Wenn Instances nicht schnell genug hinzugefügt werden, um auf den erhöhten Datenverkehr zu antworten, dann sollten Sie diesen Wert verringern.

Weitere Informationen zum Konfigurieren des Auto Scaling finden Sie in den folgenden Ressourcen:

Abschnitt application-autoscaling in der AWS CLI-Befehlsreferenz
API-Referenz zu Application Auto Scaling
Benutzerhandbuch zum Application Auto Scaling

Anmerkung

SageMaker KI hat kürzlich neue Inferenzfunktionen eingeführt, die auf Echtzeit-Inferenzendpunkten basieren. Sie erstellen einen SageMaker KI-Endpunkt mit einer Endpunktkonfiguration, die den Instanztyp und die anfängliche Anzahl der Instanzen für den Endpunkt definiert. Erstellen Sie anschließend eine Inferenzkomponente, bei der es sich um ein SageMaker KI-Hosting-Objekt handelt, mit dem Sie ein Modell auf einem Endpunkt bereitstellen können. Informationen zur Skalierung von Inferenzkomponenten finden Sie im Blog unter SageMaker KI fügt neue Inferenzfunktionen hinzu, um die Kosten und die Latenz von Basismodellen zu reduzieren und die Kosten für die Modellbereitstellung mithilfe der neuesten SageMaker KI-Funktionen um durchschnittlich 50% zu senken. AWS

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Auto Scaling

Voraussetzungen