Trainingsmetriken Inferenzmetriken Kennzahlen zur Aufgaben-Governance Skalierungsmetriken Cluster-Metriken Instance-Metriken Beschleunigte Rechenmetriken Netzwerkmetriken Metriken für das Dateisystem

SageMaker HyperPod Cluster-Metriken

Amazon SageMaker HyperPod (SageMaker HyperPod) veröffentlicht verschiedene Kennzahlen in 9 verschiedenen Kategorien in Ihrem Amazon Managed Service for Prometheus-Workspace. Nicht alle Metriken sind standardmäßig aktiviert oder werden in Ihrem Workspace in Amazon Managed Grafana angezeigt. Die folgende Tabelle zeigt, welche Metriken standardmäßig aktiviert sind, wenn Sie das Observability-Add-on installieren, welche Kategorien zusätzliche Metriken haben, die für detailliertere Clusterinformationen aktiviert werden können, und wo sie im Amazon Managed Grafana-Arbeitsbereich angezeigt werden.

Metrik-Kategorie	Standardmäßig aktiviert?	Zusätzliche erweiterte Metriken verfügbar?	Verfügbar unter welchen Grafana-Dashboards?
Trainingsmetriken	Ja	Ja	Training
Inferenzmetriken	Ja	Nein	Inferenz
Kennzahlen zur Aufgaben-Governance	Nein	Ja	Keine. Fragen Sie Ihren Workspace in Amazon Managed Service für Prometheus ab, um Ihr eigenes Dashboard zu erstellen.
Skalierungsmetriken	Nein	Ja	Keine. Fragen Sie Ihren Workspace in Amazon Managed Service für Prometheus ab, um Ihr eigenes Dashboard zu erstellen.
Cluster-Metriken	Ja	Ja	Cluster
Instance-Metriken	Ja	Ja	Cluster
Beschleunigte Rechenmetriken	Ja	Ja	Aufgabe, Cluster
Netzwerkmetriken	Nein	Ja	Cluster
Dateisystem	Ja	Nein	Dateisystem

In den folgenden Tabellen werden die Metriken beschrieben, die für die Überwachung Ihres SageMaker HyperPod Clusters verfügbar sind, geordnet nach Kategorien.

Trainingsmetriken

Verwenden Sie diese Metriken, um die Leistung der auf dem SageMaker HyperPod Cluster ausgeführten Trainingsaufgaben zu verfolgen.

Metrikname oder -typ	Description	Standardmäßig aktiviert?	Quelle der Metrik
Kubeflow-Metriken	https://github.com/kubeflow/Trainer	Ja	Kubeflow
Kubernetes-Pod-Metriken	https://github.com/kubernetes/kube-state-metrics	Ja	Kubernetes
`training_uptime_percentage`	Prozentualer Anteil der Trainingszeit an der Gesamtfenstergröße	Nein	SageMaker HyperPod Schulung des Bedieners
`training_manual_recovery_count`	Gesamtzahl der während des Jobs durchgeführten manuellen Neustarts	Nein	SageMaker HyperPod ausbildender Betreiber
`training_manual_downtime_ms`	Gesamtzeit in Millisekunden, in der der Job aufgrund manueller Eingriffe ausgefallen war	Nein	SageMaker HyperPod ausbildender Betreiber
`training_auto_recovery_count`	Gesamtzahl der automatischen Wiederherstellungen	Nein	SageMaker HyperPod ausbildender Betreiber
`training_auto_recovery_downtime`	Gesamter Infrastruktur-Overhead in Millisekunden während der Fehlerbehebung	Nein	SageMaker HyperPod ausbildender Betreiber
`training_fault_count`	Gesamtzahl der während des Trainings aufgetretenen Fehler	Nein	SageMaker HyperPod ausbildender Betreiber
`training_fault_type_count`	Verteilung der Fehler nach Typ	Nein	SageMaker HyperPod ausbildender Betreiber
`training_fault_recovery_time_ms`	Wiederherstellungszeit in Millisekunden für jeden Fehlertyp	Nein	SageMaker HyperPod ausbildender Betreiber
`training_time_ms`	Gesamtzeit in Millisekunden, die für das tatsächliche Training aufgewendet wurde	Nein	SageMaker HyperPod ausbildender Betreiber

Inferenzmetriken

Verwenden Sie diese Metriken, um die Leistung von Inferenzaufgaben auf dem SageMaker HyperPod Cluster zu verfolgen.

Metrikname oder -typ	Description	Standardmäßig aktiviert?	Quelle der Metrik
`model_invocations_total`	Gesamtzahl der Aufruf-Anforderungen an das Modell	Ja	SageMaker HyperPod Inferenzoperator
`model_errors_total`	Gesamtzahl der Fehler beim Modellaufruf	Ja	SageMaker HyperPod Inferenzoperator
`model_concurrent_requests`	Aktive gleichzeitige Modellanfragen	Ja	SageMaker HyperPod Inferenzoperator
`model_latency_milliseconds`	Modellieren einer Latenz für Aufrufe in Millisekunden	Ja	SageMaker HyperPod Inferenzoperator
`model_ttfb_milliseconds`	Modellieren Sie die Latenz von der Zeit bis zum ersten Byte in Millisekunden	Ja	SageMaker HyperPod Inferenzoperator
TGI	Diese Metriken können verwendet werden, um die Leistung von TGI zu überwachen, die Bereitstellung automatisch zu skalieren und um Engpässe zu identifizieren. Eine detaillierte Liste der Metriken finden Sie unter https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md.	Ja	Modellcontainer
LMI	Diese Metriken können verwendet werden, um die Leistung von LMI zu überwachen und Engpässe zu identifizieren. Eine detaillierte Liste der Metriken finden Sie unter https://github.com/deepjavalibrary/djl - .md. serving/blob/master/prometheus/README	Ja	Modellcontainer

Kennzahlen zur Aufgaben-Governance

Verwenden Sie diese Metriken, um die Aufgabenverwaltung und die Ressourcenzuweisung auf dem SageMaker HyperPod Cluster zu überwachen.

Metrikname oder -typ	Description	Standardmäßig aktiviert?	Quelle der Metrik
Warteschlange	Weitere Informationen finden Sie unter https://kueue.sigs.k8s. io/docs/reference/metrics/.	Nein	Warteschlange

Skalierungsmetriken

Verwenden Sie diese Metriken, um das Verhalten und die Leistung der auto-scaling auf dem SageMaker HyperPod Cluster zu überwachen.

Metrikname oder -typ	Description	Standardmäßig aktiviert?	Quelle der Metrik
KEDA-Operator-Metriken	Weitere Informationen finden Sie unter https://keda. sh/docs/2.17/integrations/prometheus/#operator.	Nein	Kubernetes Event-Driven Autoscaler (KEDA)
KEDA-Webhook-Metriken	Siehe https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks.	Nein	Kubernetes Event-Driven Autoscaler (KEDA)
KEDA-Metrik-Server Metriken	Siehe https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server.	Nein	Kubernetes Event-Driven Autoscaler (KEDA)

Cluster-Metriken

Verwenden Sie diese Metriken, um den Gesamtzustand des Clusters und die Ressourcenzuweisung zu überwachen.

Metrikname oder -typ	Description	Standardmäßig aktiviert?	Quelle der Metrik
Cluster-Zustand	Metriken für Kubernetes-API-Server. Siehe https://kubernetes. io/docs/reference/instrumentation/metrics/.	Ja	Kubernetes
Kubestate	Siehe https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources.	Begrenzt	Kubernetes
KubeState Fortgeschritten	Siehe https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources.	Nein	Kubernetes

Instance-Metriken

Verwenden Sie diese Metriken, um die Leistung und den Zustand einzelner Instances zu überwachen.

Metrikname oder -typ	Description	Standardmäßig aktiviert?	Quelle der Metrik
Knoten-Metriken	Siehe node_exporter? https://github.com/prometheus/ tab= #. readme-ov-file enabled-by-default	Ja	Kubernetes
Containermetriken	Von Cadvisor veröffentlichte Container-Metriken. Siehe cadvisorhttps://github.com/google/.	Ja	Kubernetes

Beschleunigte Rechenmetriken

Verwenden Sie diese Metriken, um die Leistung, den Zustand und die Auslastung einzelner Accelerated Computing-Geräte in Ihrem Cluster zu überwachen.

Anmerkung

Wenn die GPU-Partitionierung mit MIG (Multi-Instance-GPU) auf Ihrem Cluster aktiviert ist, bieten DCGM-Metriken automatisch Granularität auf Partitionsebene für die Überwachung einzelner MIG-Instanzen. Jede MIG-Partition wird als separates GPU-Gerät mit eigenen Messwerten für Temperatur, Leistung, Speicherauslastung und Rechenaktivität bereitgestellt. Auf diese Weise können Sie die Ressourcennutzung und den Zustand der Ressourcen für jede GPU-Partition unabhängig verfolgen und so eine präzise Überwachung der Workloads ermöglichen, die auf fraktionierten GPU-Ressourcen ausgeführt werden. Weitere Informationen zur Konfiguration der GPU-Partitionierung finden Sie unter. Verwenden von GPU-Partitionen in Amazon SageMaker HyperPod

Metrikname oder -typ	Description	Standardmäßig aktiviert?	Quelle der Metrik
NVIDIA-GPU	DCGM-Metriken. Siehe https://github.com/NVIDIA/dcgm--metrics-included.csv. exporter/blob/main/etc/dcp	Begrenzt	NVIDIA-GPU-Manager für Rechenzentren (DCGM)
NVIDIA-GPU (fortgeschritten)	DCGM-Metriken, die in der folgenden CSV-Datei auskommentiert sind: https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp	Nein	NVIDIA-GPU-Manager für Rechenzentren (DCGM)
AWS Trainium	Neuronenmetriken. Siehe https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- .html# monitor-user-guide. neuron-monitor-nc-counters	Nein	AWS Neuronenmonitor

Netzwerkmetriken

Verwenden Sie diese Metriken für die Überwachung der Leistung und des Zustands der Elastic Fabric Adapter (EFA) in Ihrem Cluster.

Metrikname oder -typ	Description	Standardmäßig aktiviert?	Quelle der Metrik
EFA	Siehe https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md.	Nein	Elastic Fabric Adapter

Metriken für das Dateisystem

Metrikname oder -typ	Description	Standardmäßig aktiviert?	Quelle der Metrik
Dateisystem	Amazon FSx for Lustre-Metriken von Amazon CloudWatch: Überwachung mit Amazon CloudWatch.	Ja	Amazon FSx für Lustre

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Benutzerdefinierte Metriken

Vorkonfigurierte Alarme