Metriken auf Clusterebene Metriken auf Instance-Ebene

Amazon SageMaker HyperPod Slurm-Metriken

Amazon SageMaker HyperPod bietet eine Reihe von CloudWatch Amazon-Metriken, mit denen Sie den Zustand und die Leistung Ihrer HyperPod Cluster überwachen können. Diese Metriken werden vom Slurm-Workload-Manager erfasst, der auf Ihren HyperPod Clustern ausgeführt wird, und sind im /aws/sagemaker/Clusters CloudWatch Namespace verfügbar.

Metriken auf Clusterebene

Die folgenden Metriken auf Clusterebene sind verfügbar für. HyperPod Diese Metriken verwenden die ClusterId Dimension, um den spezifischen HyperPod Cluster zu identifizieren.

CloudWatch Name der Metrik	Hinweise	Metrikname „Amazon EKS Container Insights“
cluster_node_count	Gesamtzahl der Knoten im Cluster	cluster_node_count
cluster_idle_node_count	Anzahl der inaktiven Knoten im Cluster	N/A
cluster_failed_node_count	Anzahl der ausgefallenen Knoten im Cluster	cluster_failed_node_count
cluster_cpu_count	Gesamtzahl der CPU-Kerne im Cluster	node_cpu_limit
cluster_idle_cpu_count	Anzahl der CPU-Kerne im Cluster	N/A
cluster_gpu_count	Gesamtzahl der GPUs im Cluster	node_gpu_limit
cluster_idle_gpu_count	Anzahl der inaktiven GPUs im Cluster	N/A
cluster_running_task_count	Gesamtzahl der laufenden Slurm-Aufträge im Cluster	N/A
cluster_pending_task_count	Gesamtzahl der ausstehenden Slurm-Aufträge im Cluster	N/A
cluster_preempted_task_count	Gesamtzahl der unterbrochenen Slurm-Aufträge im Cluster	N/A
cluster_avg_task_wait_time	Durchschnittliche Wartezeit für Slurm-Aufträge im Cluster	N/A
cluster_max_task_wait_time	Maximale Wartezeit für Slurm-Aufträge im Cluster	N/A

Metriken auf Instance-Ebene

Die folgenden Metriken auf Instanzebene sind verfügbar für. HyperPod Diese Metriken verwenden die ClusterId Dimension auch, um den spezifischen HyperPod Cluster zu identifizieren.

CloudWatch Name der Metrik	Hinweise	Metrikname „Amazon EKS Container Insights“
node_gpu_utilization	Durchschnittliche GPU-Auslastung über alle Instances	node_gpu_utilization
node_gpu_memory_utilization	Durchschnittliche GPU-Speicherauslastung über alle Instances	node_gpu_memory_utilization
node_cpu_utilization	Durchschnittliche CPU-Auslastung über alle Instances hinweg	node_cpu_utilization
node_memory_utilization	Durchschnittliche Speicherauslastung über alle Instances hinweg	node_memory_utilization

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Referenz zu exportierten Metriken

Cluster-Ausfallsicherheit