Konfigurieren Sie Auto Scaling für Modelle über die Konsole

So konfigurieren Sie Auto Scaling für ein Modell (Konsole)

Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/.
Wählen Sie im Navigationsbereich Inferenz und anschließend Endpunkte aus.
Wählen Sie Ihren Endpunkt und dann für Endpunktlaufzeiteinstellungen die Variante aus.
Wählen Sie Configure auto scaling (Auto Scaling konfigurieren) aus.
Gehen Sie auf der Seite Auto Scaling von Varianten konfigurieren unter Varianten-Auto Scaling wie folgt vor:
1. Geben Sie für Minimale Instance-Anzahl die Mindestzahl an Instances ein, die die Skalierungsrichtlinie beibehalten soll. Es ist mindestens eine Instance erforderlich.
2. Geben Sie für Maximale Instance-Anzahl die Höchstzahl an Instances ein, die die Skalierungsrichtlinie beibehalten soll.
Gehen Sie für die Built-in Skalierungsrichtlinie wie folgt vor:
1. Für die Zielmetrik ist SageMakerVariantInvocationsPerInstance automatisch ausgewählt und kann nicht geändert werden.
2. Geben Sie für den Zielwert die durchschnittliche Anzahl der Aufrufe pro Instance pro Minute für das Modell ein. Um diesen Wert festzulegen, befolgen Sie die Richtlinien auf Lasttest.
3. (Optional) Geben Sie für Scale-in Scale-out Abkühlen (Sekunden) und Abkühlen (Sekunden) die Zeit in Sekunden für jede Abkühlphase ein.
4. (Optional) Wählen Sie Skalierung deaktivieren aus, wenn Sie nicht möchten, dass Auto Scaling die Instances beendet, wenn der Traffic abnimmt.
Wählen Sie Speichern.

Dieses Verfahren registriert ein Modell als skalierbares Ziel mit Application Auto Scaling. Wenn Sie ein Modell registrieren, nimmt Application Auto Scaling Überprüfungen vor, um sicherzustellen, dass:

Das Modell existiert
die Berechtigungen ausreichen
Sie keine Variante mit einer Instance registrieren, die eine Burstable Performance Instance wie T2 ist

Anmerkung
SageMaker KI unterstützt Auto Scaling für Burstable-Instances wie T2 nicht, da sie bereits eine höhere Kapazität bei erhöhten Workloads ermöglichen. Informationen zu Instances mit Spitzenlastleistung finden Sie unter Instance-Typen von Amazon EC2.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Voraussetzungen

Registrieren eines Modells

Konfigurieren Sie Auto Scaling für Modelle über die Konsole

So konfigurieren Sie Auto Scaling für ein Modell (Konsole)

Anmerkung