Lasttest Ihrer Auto -Scaling-Konfiguration
Führen Sie Lasttests durch, um eine Skalierungskonfiguration auszuwählen, die so funktioniert, wie Sie es möchten.
Die folgenden Richtlinien zur Durchführung von Lasttests gehen davon aus, dass Sie eine Skalierungsrichtlinie verwenden, die die vorab definierte SageMakerVariantInvocationsPerInstance-Kennzahl nutzt.
Bestimmen der Leistungseigenschaften
Führen Sie Lasttests durch, um die höchste Auslastung InvocationsPerInstance, die Ihre Produktionsvariante Ihres Modells verarbeiten kann, und die Latenz der Anfragen, während die Nebenläufigkeit zunimmt, zu finden.
Dieser Wert hängt vom ausgewählten Instance-Typ, von den Nutzlasten, die Kunden in der Regel an Ihr Modell senden sowie von der Performance der externen Abhängigkeiten Ihres Modells ab.
So finden Sie die Höchstzahl der Anforderungen pro Sekunde (RPS), die die Produktionsvariante Ihres Modells verarbeiten kann, sowie die Latenz der Anfragen
-
Richten Sie mithilfe einer einzigen Instance einen Endpunkt für Ihr Modell ein. Informationen zum Einrichten eines Endpunkts finden Sie unter Bereitstellen des Modells für Hosting-Services von SageMaker AI.
-
Verwenden Sie ein Tool für Lasttests, um eine steigende Anzahl von Parallelanforderungen zu generieren und die Anfragen pro Sekunde (RPS) sowie das Latenzmodell im Ausgang des Tools für Lasttests zu überwachen.
Anmerkung
Sie können auch die Anfragen pro Minute statt der Anfragen pro Sekunde (RPS) überwachen. In diesem Fall multiplizieren Sie in der Gleichung nicht mit 60, um
SageMakerVariantInvocationsPerInstance, wie unten veranschaulicht, zu berechnen.Steigt die Modelllatenz oder verringert sich der Anteil erfolgreicher Transaktionen, dann ist das die Höchstzahl der Anfragen pro Sekunde (RPS), die Ihr Modell verarbeiten kann.
Berechnen der Ziellast
Nachdem Sie die Leistungsmerkmale der Variante gefunden haben, können Sie die Höchstzahl der Anfragen pro Sekunde (RPS) bestimmen, die wir an eine Instance senden sollen. Die Schwellenwert, der für die Skalierung verwendet wurde, muss kleiner sein als dieser Maximalwert. Verwenden Sie die folgende Gleichung in Kombination mit einem Lasttest, um den passenden Wert für die Zielkennzahl SageMakerVariantInvocationsPerInstance in Ihrer Skalierungskonfiguration festzulegen.
SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60
Wo MAX_RPS die maximale, durch Sie zuvor festgelegte Anzahl der Anfragen pro Sekunde (RPS) darstellt, und SAFETY_FACTOR der Sicherheitsfaktor ist, den Sie gewählt haben, um sicherzustellen, dass Ihre Kunden die Höchstzahl der Anfragen (RPS) nicht überschreiten. Multiplizieren Sie mit 60, um die RPS in Anrufe pro Minute umzuwandeln und der Pro-Minute-Metrik von CloudWatch zu entsprechen, die SageMaker AI für die Implementierung von Auto Scaling verwendet (Sie müssen dies nicht tun, wenn Sie die Anfragen pro Minute und nicht die Anfragen pro Sekunde gemessen haben).
Anmerkung
SageMaker AI empfiehlt, den Test mit einem SAFETY_FACTOR von 0,5 zu beginnen. Testen Sie Ihre Skalierungskonfiguration, um sicherzustellen, dass sie wunschgemäß entsprechend Ihres Modells funktioniert, um den Kundendatenverkehr an Ihrem Endpunkt zu erhöhen oder zu senken.