SageMaker HyperPod Cluster-Metriken - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

SageMaker HyperPod Cluster-Metriken

Amazon SageMaker HyperPod (SageMaker HyperPod) veröffentlicht verschiedene Kennzahlen in 9 verschiedenen Kategorien in Ihrem Amazon Managed Service for Prometheus-Workspace. Nicht alle Metriken sind standardmäßig aktiviert oder werden in Ihrem Workspace in Amazon Managed Grafana angezeigt. Die folgende Tabelle zeigt, welche Metriken standardmäßig aktiviert sind, wenn Sie das Observability-Add-on installieren, welche Kategorien zusätzliche Metriken haben, die für detailliertere Clusterinformationen aktiviert werden können, und wo sie im Amazon Managed Grafana-Arbeitsbereich angezeigt werden.

Metrik-Kategorie Standardmäßig aktiviert? Zusätzliche erweiterte Metriken verfügbar? Verfügbar unter welchen Grafana-Dashboards?
Trainingsmetriken Ja Ja Training
Inferenzmetriken Ja Nein Inferenz
Kennzahlen zur Task-Governance Nein Ja Keine. Fragen Sie Ihren Workspace in Amazon Managed Service für Prometheus ab, um Ihr eigenes Dashboard zu erstellen.
Skalierungsmetriken Nein Ja Keine. Fragen Sie Ihren Workspace in Amazon Managed Service für Prometheus ab, um Ihr eigenes Dashboard zu erstellen.
Cluster-Metriken Ja Ja Cluster
Instance-Metriken Ja Ja Cluster
Beschleunigte Rechenmetriken Ja Ja Aufgabe, Cluster
Netzwerkmetriken Nein Ja Cluster
Dateisystem Ja Nein Dateisystem

In den folgenden Tabellen werden die Metriken beschrieben, die für die Überwachung Ihres SageMaker HyperPod Clusters verfügbar sind, geordnet nach Kategorien.

Trainingsmetriken

Verwenden Sie diese Metriken, um die Leistung der auf dem SageMaker HyperPod Cluster ausgeführten Trainingsaufgaben zu verfolgen.

Metrikname oder -typ Description Standardmäßig aktiviert? Quelle der Metrik
Kubeflow-Metriken https://github.com/kubeflow/Trainer Ja Kubeflow
Kubernetes-Pod-Metriken https://github.com/kubernetes/kube-state-metrics Ja Kubernetes
training_uptime_percentage Prozentualer Anteil der Trainingszeit an der Gesamtfenstergröße Nein SageMaker HyperPod Schulung des Bedieners
training_manual_recovery_count Gesamtzahl der während des Jobs durchgeführten manuellen Neustarts Nein SageMaker HyperPod ausbildender Betreiber
training_manual_downtime_ms Gesamtzeit in Millisekunden, in der der Job aufgrund manueller Eingriffe ausgefallen war Nein SageMaker HyperPod ausbildender Betreiber
training_auto_recovery_count Gesamtzahl der automatischen Wiederherstellungen Nein SageMaker HyperPod ausbildender Betreiber
training_auto_recovery_downtime Gesamter Infrastruktur-Overhead in Millisekunden während der Fehlerbehebung Nein SageMaker HyperPod ausbildender Betreiber
training_fault_count Gesamtzahl der während des Trainings aufgetretenen Fehler Nein SageMaker HyperPod ausbildender Betreiber
training_fault_type_count Verteilung der Fehler nach Typ Nein SageMaker HyperPod ausbildender Betreiber
training_fault_recovery_time_ms Wiederherstellungszeit in Millisekunden für jeden Fehlertyp Nein SageMaker HyperPod ausbildender Betreiber
training_time_ms Gesamtzeit in Millisekunden, die für das tatsächliche Training aufgewendet wurde Nein SageMaker HyperPod ausbildender Betreiber

Inferenzmetriken

Verwenden Sie diese Metriken, um die Leistung von Inferenzaufgaben auf dem SageMaker HyperPod Cluster zu verfolgen.

Metrikname oder -typ Description Standardmäßig aktiviert? Quelle der Metrik
model_invocations_total Gesamtzahl der Aufruf-Anforderungen an das Modell Ja SageMaker HyperPod Inferenzoperator
model_errors_total Gesamtzahl der Fehler beim Modellaufruf Ja SageMaker HyperPod Inferenzoperator
model_concurrent_requests Aktive gleichzeitige Modellanfragen Ja SageMaker HyperPod Inferenzoperator
model_latency_milliseconds Modellieren einer Latenz für Aufrufe in Millisekunden Ja SageMaker HyperPod Inferenzoperator
model_ttfb_milliseconds Modellieren Sie die Latenz von der Zeit bis zum ersten Byte in Millisekunden Ja SageMaker HyperPod Inferenzoperator
TGI Diese Metriken können verwendet werden, um die Leistung von TGI zu überwachen, die Bereitstellung automatisch zu skalieren und um Engpässe zu identifizieren. Eine detaillierte Liste der Metriken finden Sie unter https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. Ja Modellcontainer
LMI Diese Metriken können verwendet werden, um die Leistung von LMI zu überwachen und Engpässe zu identifizieren. Eine detaillierte Liste der Metriken finden Sie unter https://github.com/deepjavalibrary/djl - .md. serving/blob/master/prometheus/README Ja Modellcontainer

Kennzahlen zur Task-Governance

Verwenden Sie diese Metriken, um die Aufgabenverwaltung und die Ressourcenzuweisung auf dem SageMaker HyperPod Cluster zu überwachen.

Metrikname oder -typ Description Standardmäßig aktiviert? Quelle der Metrik
Warteschlange Weitere Informationen finden Sie unter https://kueue.sigs.k8s. io/docs/reference/metrics/. Nein Warteschlange

Skalierungsmetriken

Verwenden Sie diese Metriken, um das Verhalten und die Leistung der auto-scaling auf dem SageMaker HyperPod Cluster zu überwachen.

Metrikname oder -typ Description Standardmäßig aktiviert? Quelle der Metrik
KEDA-Operator-Metriken Weitere Informationen finden Sie unter https://keda. sh/docs/2.17/integrations/prometheus/#operator. Nein Kubernetes Event-Driven Autoscaler (KEDA)
KEDA-Webhook-Metriken Siehe https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks. Nein Kubernetes Event-Driven Autoscaler (KEDA)
KEDA-Metrik-Server Metriken Siehe https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server. Nein Kubernetes Event-Driven Autoscaler (KEDA)

Cluster-Metriken

Verwenden Sie diese Metriken, um den Gesamtzustand des Clusters und die Ressourcenzuweisung zu überwachen.

Metrikname oder -typ Description Standardmäßig aktiviert? Quelle der Metrik
Cluster-Zustand Metriken für Kubernetes-API-Server. Siehe https://kubernetes. io/docs/reference/instrumentation/metrics/. Ja Kubernetes
Kubestate Siehe https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources. Begrenzt Kubernetes
KubeState Fortgeschritten Siehe https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources. Nein Kubernetes

Instance-Metriken

Verwenden Sie diese Metriken, um die Leistung und den Zustand einzelner Instances zu überwachen.

Metrikname oder -typ Description Standardmäßig aktiviert? Quelle der Metrik
Knoten-Metriken Siehe node_exporter? https://github.com/prometheus/ tab= #. readme-ov-file enabled-by-default Ja Kubernetes
Containermetriken Von Cadvisor veröffentlichte Container-Metriken. Siehe cadvisorhttps://github.com/google/. Ja Kubernetes

Beschleunigte Rechenmetriken

Verwenden Sie diese Metriken, um die Leistung, den Zustand und die Auslastung einzelner Accelerated Computing-Geräte in Ihrem Cluster zu überwachen.

Anmerkung

Wenn die GPU-Partitionierung mit MIG (Multi-Instance-GPU) auf Ihrem Cluster aktiviert ist, bieten DCGM-Metriken automatisch Granularität auf Partitionsebene für die Überwachung einzelner MIG-Instanzen. Jede MIG-Partition wird als separates GPU-Gerät mit eigenen Messwerten für Temperatur, Leistung, Speicherauslastung und Rechenaktivität bereitgestellt. Auf diese Weise können Sie die Ressourcennutzung und den Zustand der Ressourcen für jede GPU-Partition unabhängig verfolgen und so eine präzise Überwachung der Workloads ermöglichen, die auf fraktionierten GPU-Ressourcen ausgeführt werden. Weitere Informationen zur Konfiguration der GPU-Partitionierung finden Sie unter. Verwenden von GPU-Partitionen in Amazon SageMaker HyperPod

Metrikname oder -typ Description Standardmäßig aktiviert? Quelle der Metrik
NVIDIA-GPU DCGM-Metriken. Siehe https://github.com/NVIDIA/dcgm--metrics-included.csv. exporter/blob/main/etc/dcp Begrenzt

NVIDIA-GPU-Manager für Rechenzentren (DCGM)

NVIDIA-GPU (fortgeschritten)

DCGM-Metriken, die in der folgenden CSV-Datei auskommentiert sind:

https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp

Nein

NVIDIA-GPU-Manager für Rechenzentren (DCGM)

AWSTrainium Neuronenmetriken. Siehe https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- .html# monitor-user-guide. neuron-monitor-nc-counters Nein AWSNeuronenmonitor

Netzwerkmetriken

Verwenden Sie diese Metriken für die Überwachung der Leistung und des Zustands der Elastic Fabric Adapter (EFA) in Ihrem Cluster.

Metrikname oder -typ Description Standardmäßig aktiviert? Quelle der Metrik
EFA Siehe https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. Nein Elastic Fabric Adapter

Metriken für das Dateisystem

Metrikname oder -typ Description Standardmäßig aktiviert? Quelle der Metrik
Dateisystem Amazon FSx for Lustre-Metriken von Amazon CloudWatch:

Überwachung mit Amazon CloudWatch.

Ja Amazon FSx für Lustre