Amazon SageMaker HyperPod Slurm-Metriken - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon SageMaker HyperPod Slurm-Metriken

Amazon SageMaker HyperPod bietet eine Reihe von CloudWatch Amazon-Metriken, mit denen Sie den Zustand und die Leistung Ihrer HyperPod Cluster überwachen können. Diese Metriken werden vom Slurm-Workload-Manager erfasst, der auf Ihren HyperPod Clustern ausgeführt wird, und sind im /aws/sagemaker/Clusters CloudWatch Namespace verfügbar.

Metriken auf Clusterebene

Die folgenden Metriken auf Clusterebene sind verfügbar für. HyperPod Diese Metriken verwenden die ClusterId Dimension, um den spezifischen HyperPod Cluster zu identifizieren.

CloudWatch Name der Metrik Hinweise Metrikname „Amazon EKS Container Insights“
cluster_node_count Gesamtzahl der Knoten im Cluster cluster_node_count
cluster_idle_node_count Anzahl der inaktiven Knoten im Cluster
cluster_failed_node_count Anzahl der ausgefallenen Knoten im Cluster cluster_failed_node_count
cluster_cpu_count Gesamtzahl der CPU-Kerne im Cluster node_cpu_limit
cluster_idle_cpu_count Anzahl der CPU-Kerne im Cluster
cluster_gpu_count Summe GPUs im Cluster node_gpu_limit
cluster_idle_gpu_count Anzahl der inaktiven GPUs Benutzer im Cluster
cluster_running_task_count Gesamtzahl der laufenden Slurm-Aufträge im Cluster
cluster_pending_task_count Gesamtzahl der ausstehenden Slurm-Aufträge im Cluster
cluster_preempted_task_count Gesamtzahl der unterbrochenen Slurm-Aufträge im Cluster
cluster_avg_task_wait_time Durchschnittliche Wartezeit für Slurm-Aufträge im Cluster
cluster_max_task_wait_time Maximale Wartezeit für Slurm-Aufträge im Cluster

Metriken auf Instance-Ebene

Die folgenden Metriken auf Instanzebene sind verfügbar für. HyperPod Diese Metriken verwenden die ClusterId Dimension auch, um den spezifischen HyperPod Cluster zu identifizieren.

CloudWatch Name der Metrik Hinweise Metrikname „Amazon EKS Container Insights“
node_gpu_utilization Durchschnittliche GPU-Auslastung über alle Instances node_gpu_utilization
node_gpu_memory_utilization Durchschnittliche GPU-Speicherauslastung über alle Instances node_gpu_memory_utilization
node_cpu_utilization Durchschnittliche CPU-Auslastung über alle Instances hinweg node_cpu_utilization
node_memory_utilization Durchschnittliche Speicherauslastung über alle Instances hinweg node_memory_utilization