Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Amazon SageMaker HyperPod Slurm-Metriken
Amazon SageMaker HyperPod bietet eine Reihe von CloudWatch Amazon-Metriken, mit denen Sie den Zustand und die Leistung Ihrer HyperPod Cluster überwachen können. Diese Metriken werden vom Slurm-Workload-Manager erfasst, der auf Ihren HyperPod Clustern ausgeführt wird, und sind im /aws/sagemaker/Clusters CloudWatch Namespace verfügbar.
Metriken auf Clusterebene
Die folgenden Metriken auf Clusterebene sind verfügbar für. HyperPod Diese Metriken verwenden die ClusterId Dimension, um den spezifischen HyperPod Cluster zu identifizieren.
| CloudWatch Name der Metrik | Hinweise | Metrikname „Amazon EKS Container Insights“ |
|---|---|---|
| cluster_node_count | Gesamtzahl der Knoten im Cluster | cluster_node_count |
| cluster_idle_node_count | Anzahl der inaktiven Knoten im Cluster | – |
| cluster_failed_node_count | Anzahl der ausgefallenen Knoten im Cluster | cluster_failed_node_count |
| cluster_cpu_count | Gesamtzahl der CPU-Kerne im Cluster | node_cpu_limit |
| cluster_idle_cpu_count | Anzahl der CPU-Kerne im Cluster | – |
| cluster_gpu_count | Summe GPUs im Cluster | node_gpu_limit |
| cluster_idle_gpu_count | Anzahl der inaktiven GPUs Benutzer im Cluster | – |
| cluster_running_task_count | Gesamtzahl der laufenden Slurm-Aufträge im Cluster | – |
| cluster_pending_task_count | Gesamtzahl der ausstehenden Slurm-Aufträge im Cluster | – |
| cluster_preempted_task_count | Gesamtzahl der unterbrochenen Slurm-Aufträge im Cluster | – |
| cluster_avg_task_wait_time | Durchschnittliche Wartezeit für Slurm-Aufträge im Cluster | – |
| cluster_max_task_wait_time | Maximale Wartezeit für Slurm-Aufträge im Cluster | – |
Metriken auf Instance-Ebene
Die folgenden Metriken auf Instanzebene sind verfügbar für. HyperPod Diese Metriken verwenden die ClusterId Dimension auch, um den spezifischen HyperPod Cluster zu identifizieren.
| CloudWatch Name der Metrik | Hinweise | Metrikname „Amazon EKS Container Insights“ |
|---|---|---|
| node_gpu_utilization | Durchschnittliche GPU-Auslastung über alle Instances | node_gpu_utilization |
| node_gpu_memory_utilization | Durchschnittliche GPU-Speicherauslastung über alle Instances | node_gpu_memory_utilization |
| node_cpu_utilization | Durchschnittliche CPU-Auslastung über alle Instances hinweg | node_cpu_utilization |
| node_memory_utilization | Durchschnittliche Speicherauslastung über alle Instances hinweg | node_memory_utilization |