CloudWatch-Kennzahlen für Multimodell-Endpunkt-Bereitstellungen - Amazon SageMaker AI

CloudWatch-Kennzahlen für Multimodell-Endpunkt-Bereitstellungen

Amazon SageMaker AI stellt Kennzahlen für Endpunkte bereit, mit denen Sie die Cache-Trefferrate, die Anzahl der geladenen Modelle und die Wartezeiten für das Laden, Herunterladen und Hochladen an einen Multimodell-Endpunkt überwachen können. Manche der Metriken unterscheiden sich für CPU- und GPU-gestützte Multimodell-Endpunkte. Daher werden in den folgenden Abschnitten die Amazon CloudWatch-Kennzahlen beschrieben, die Sie für Multimodell-Endpunkte jedes Typs verwenden können.

Weitere Informationen zu den Kennzahlen finden Sie unter Kennzahlen zum Laden von Multimodell-Endpunktmodellen und Kennzahlen für Multimodell-Endpunktmodell-Instances in Metriken von Amazon SageMaker AI in Amazon CloudWatch. Metriken pro Modell werden nicht unterstützt.

CloudWatch-Kennzahlen für CPU-gestützte Multimodell-Endpunkte

Auf CPU-gestützten Multimodell-Endpunkten können Sie die folgenden Kennzahlen überwachen.

Der AWS/SageMaker-Namespace enthält das folgende Modell, das Kennzahlen aus Aufrufen an InvokeEndpoint lädt.

Die Kennzahlen sind mit einminütiger Frequenz verfügbar.

Weitere Informationen darüber, wie lange CloudWatch-Kennzahlen aufbewahrt werden, finden Sie unter GetMetricStatistics in der Amazon CloudWatch API Reference.

Kennzahlen zum Laden von Multimodell-Endpunktmodellen

Metrik Beschreibung
ModelLoadingWaitTime

Der Zeitraum , über das hinweg eine Aufrufanforderung darauf gewartet hat, dass das Zielmodell heruntergeladen oder geladen wird, oder beides, um Interferenzen vorzunehmen.

Einheiten: Mikrosekunden

Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl

ModelUnloadingTime

Der Zeitraum , das zum Entladen des Modells über den UnloadModel-API-Aufruf des Containers erforderlich war.

Einheiten: Mikrosekunden

Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl

ModelDownloadingTime

Die Dauer, die es brauchte, das Modell von Amazon Simple Storage Service (Amazon S3) herunterzuladen.

Einheiten: Mikrosekunden

Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl

ModelLoadingTime

Der Zeitraum , das zum Laden des Modells über den LoadModel-API-Aufruf des Containers erforderlich war.

Einheiten: Mikrosekunden

Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl

ModelCacheHit

Die Anzahl der InvokeEndpoint-Anforderungen, die an den Multimodell-Endpunkt gesendet werden, für die das Modell bereits geladen wurde.

Die Durchschnittsstatistik zeigt das Verhältnis der Anforderungen an, für die das Modell bereits geladen wurde.

Einheiten: keine

Gültige Statistiken: Durchschnitt, Datenstichprobe

Dimensionen für Kennzahlen zum Laden von Multimodell-Endpunktmodellen

Dimension Beschreibung
EndpointName, VariantName

Filtert die Kennzahlen für den Endpunktaufruf einer ProductionVariant für den angegebenen Endpunkt und die Variante.

Die /aws/sagemaker/Endpoints-Namespaces enthalten die folgenden Instance-Kennzahlen aus Aufrufen an InvokeEndpoint.

Die Kennzahlen sind mit einminütiger Frequenz verfügbar.

Weitere Informationen darüber, wie lange CloudWatch-Kennzahlen aufbewahrt werden, finden Sie unter GetMetricStatistics in der Amazon CloudWatch API Reference.

Kennzahlen für Modell-Instances von Multimodell-Endpunkten

Metrik Beschreibung
LoadedModelCount

Die Anzahl der Modelle, die in die Container des Multimodell-Endpunkts geladen werden. Diese Metrik wird pro Instance ausgegeben.

Die Durchschnittsstatistik mit einem Zeitraum von 1 Minute gibt Ihnen die durchschnittliche Anzahl der pro Instance geladenen Modelle an.

Die Summenstatistik gibt Ihnen die Gesamtzahl der Modelle an, die über alle Instances im Endpunkt geladen wurden.

Die Modelle, die von dieser Metrik verfolgt werden, sind nicht unbedingt eindeutig, da ein Modell möglicherweise in mehrere Container am Endpunkt geladen wird.

Einheiten: keine

Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl

CPUUtilization

Die Summe der Auslastung jedes einzelnen CPU-Kerns. Die CPU-Auslastung jedes Kernbereichs liegt zwischen 0 und 100. Sind z. B. vier CPUs vorhanden, kann CPUUtilization im Bereich zwischen 0% und 400% liegen.

Bei Endpunktvarianten ist dieser Wert die Summe der CPU-Auslastung von primären und ergänzenden Containern auf der Instance.

Einheiten: Prozent

MemoryUtilization

Der Prozentsatz des Speichers, der von den Containern auf einer Instance belegt wird. Dieser Wertebereich liegt zwischen 0 und 100%.

Bei Endpunktvarianten ist dieser Wert die Summe der Speichernutzung der primären und ergänzenden Container auf der Instance.

Einheiten: Prozent

DiskUtilization

Der Prozentsatz des Speicherplatzes, der von den Containern auf einer Instance verwendet wird. Dieser Wertebereich liegt zwischen 0 und 100%.

Bei Endpunktvarianten ist dieser Wert die Summe der Speicherplatzauslastung der primären und ergänzenden Container auf der Instance.

Einheiten: Prozent

CloudWatch-Kennzahlen für GPU-Multimodell-Endpunkt-Bereitstellungen

Auf GPU-gestützten Multimodell-Endpunkten können Sie die folgenden Kennzahlen überwachen.

Der AWS/SageMaker-Namespace enthält das folgende Modell, das Kennzahlen aus Aufrufen an InvokeEndpoint lädt.

Die Kennzahlen sind mit einminütiger Frequenz verfügbar.

Weitere Informationen darüber, wie lange CloudWatch-Kennzahlen aufbewahrt werden, finden Sie unter GetMetricStatistics in der Amazon CloudWatch API Reference.

Kennzahlen zum Laden von Multimodell-Endpunktmodellen

Metrik Beschreibung
ModelLoadingWaitTime

Der Zeitraum , über das hinweg eine Aufrufanforderung darauf gewartet hat, dass das Zielmodell heruntergeladen oder geladen wird, oder beides, um Interferenzen vorzunehmen.

Einheiten: Mikrosekunden

Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl

ModelUnloadingTime

Der Zeitraum , das zum Entladen des Modells über den UnloadModel-API-Aufruf des Containers erforderlich war.

Einheiten: Mikrosekunden

Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl

ModelDownloadingTime

Die Dauer, die es brauchte, das Modell von Amazon Simple Storage Service (Amazon S3) herunterzuladen.

Einheiten: Mikrosekunden

Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl

ModelLoadingTime

Der Zeitraum , das zum Laden des Modells über den LoadModel-API-Aufruf des Containers erforderlich war.

Einheiten: Mikrosekunden

Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl

ModelCacheHit

Die Anzahl der InvokeEndpoint-Anforderungen, die an den Multimodell-Endpunkt gesendet werden, für die das Modell bereits geladen wurde.

Die Durchschnittsstatistik zeigt das Verhältnis der Anforderungen an, für die das Modell bereits geladen wurde.

Einheiten: keine

Gültige Statistiken: Durchschnitt, Datenstichprobe

Dimensionen für Kennzahlen zum Laden von Multimodell-Endpunktmodellen

Dimension Beschreibung
EndpointName, VariantName

Filtert die Kennzahlen für den Endpunktaufruf einer ProductionVariant für den angegebenen Endpunkt und die Variante.

Die /aws/sagemaker/Endpoints-Namespaces enthalten die folgenden Instance-Kennzahlen aus Aufrufen an InvokeEndpoint.

Die Kennzahlen sind mit einminütiger Frequenz verfügbar.

Weitere Informationen darüber, wie lange CloudWatch-Kennzahlen aufbewahrt werden, finden Sie unter GetMetricStatistics in der Amazon CloudWatch API Reference.

Kennzahlen für Modell-Instances von Multimodell-Endpunkten

Metrik Beschreibung
LoadedModelCount

Die Anzahl der Modelle, die in die Container des Multimodell-Endpunkts geladen werden. Diese Metrik wird pro Instance ausgegeben.

Die Durchschnittsstatistik mit einem Zeitraum von 1 Minute gibt Ihnen die durchschnittliche Anzahl der pro Instance geladenen Modelle an.

Die Summenstatistik gibt Ihnen die Gesamtzahl der Modelle an, die über alle Instances im Endpunkt geladen wurden.

Die Modelle, die von dieser Metrik verfolgt werden, sind nicht unbedingt eindeutig, da ein Modell möglicherweise in mehrere Container am Endpunkt geladen wird.

Einheiten: keine

Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl

CPUUtilization

Die Summe der Auslastung jedes einzelnen CPU-Kerns. Die CPU-Auslastung jedes Kernbereichs liegt zwischen 0 und 100. Sind z. B. vier CPUs vorhanden, kann CPUUtilization im Bereich zwischen 0% und 400% liegen.

Bei Endpunktvarianten ist dieser Wert die Summe der CPU-Auslastung von primären und ergänzenden Containern auf der Instance.

Einheiten: Prozent

MemoryUtilization

Der Prozentsatz des Speichers, der von den Containern auf einer Instance belegt wird. Dieser Wertebereich liegt zwischen 0 und 100%.

Bei Endpunktvarianten ist dieser Wert die Summe der Speichernutzung der primären und ergänzenden Container auf der Instance.

Einheiten: Prozent

GPUUtilization

Der Prozentsatz der GPU-Einheiten, die von den Containern auf einer Instance verwendet werden. Der Wert kann im Bereich zwischen 0 und 100 liegen und wird mit der Anzahl der GPUs multipliziert. Sind z. B. vier GPUs vorhanden, kann GPUUtilization im Bereich zwischen 0% und 400% liegen.

Bei Endpunktvarianten ist dieser Wert die Summe der GPU-Auslastung von primären und ergänzenden Containern auf der Instance.

Einheiten: Prozent

GPUMemoryUtilization

Der Prozentsatz des GPU-Speichers, der von den Containern auf einer Instance belegt wird. Der Wert kann im Bereich zwischen 0 und 100 liegen und wird mit der Anzahl der GPUs multipliziert. Sind z. B. vier GPUs vorhanden, kann GPUMemoryUtilization im Bereich zwischen 0% und 400% liegen.

Bei Endpunktvarianten ist dieser Wert die Summe der GPU-Speichernutzung der primären und ergänzenden Container auf der Instance.

Einheiten: Prozent

DiskUtilization

Der Prozentsatz des Speicherplatzes, der von den Containern auf einer Instance verwendet wird. Dieser Wertebereich liegt zwischen 0 und 100%.

Bei Endpunktvarianten ist dieser Wert die Summe der Speicherplatzauslastung der primären und ergänzenden Container auf der Instance.

Einheiten: Prozent