Metriche di Amazon SageMaker HyperPod Slurm
Amazon SageMaker HyperPod fornisce un set di metriche Amazon CloudWatch che puoi utilizzare per monitorare l’integrità e le prestazioni dei cluster HyperPod. Queste metriche vengono raccolte dal gestore del carico di lavoro Slurm in esecuzione sui cluster HyperPod e sono disponibili nel namespace CloudWatch /aws/sagemaker/Clusters.
Metriche a livello di cluster
Le metriche a livello di cluster seguenti sono disponibili per HyperPod. Queste metriche utilizzano la dimensione ClusterId per identificare lo specifico cluster HyperPod.
| Nome del parametro CloudWatch | Note | Nome della metrica di Amazon ECS Container Insights |
|---|---|---|
| cluster_node_count | Numero totale di nodi nel cluster | cluster_node_count |
| cluster_idle_node_count | Numero di nodi inattivi nel cluster | N/D |
| cluster_failed_node_count | Numero di nodi non riusciti nel cluster | cluster_failed_node_count |
| cluster_cpu_count | Numero totale di core CPU nel cluster | node_cpu_limit |
| cluster_idle_cpu_count | Numero di core CPU inattivi nel cluster | N/D |
| cluster_gpu_count | GPU totali nel cluster | node_gpu_limit |
| cluster_idle_gpu_count | Numero di GPU inattive nel cluster | N/D |
| cluster_running_task_count | Numero di processi Slurm in esecuzione nel cluster | N/D |
| cluster_pending_task_count | Numero di processi Slurm in sospeso nel cluster | N/D |
| cluster_preempted_task_count | Numero di processi Slurm prerilasciati nel cluster | N/D |
| cluster_avg_task_wait_time | Tempo di attesa medio per i processi Slurm nel cluster | N/D |
| cluster_max_task_wait_time | Tempo di attesa massimo per i processi Slurm nel cluster | N/D |
Metriche a livello di istanza
Per HyperPod sono disponibili le metriche a livello di istanza seguenti. Anche queste metriche utilizzano la dimensione ClusterId per identificare lo specifico cluster HyperPod.
| Nome del parametro CloudWatch | Note | Nome della metrica di Amazon ECS Container Insights |
|---|---|---|
| node_gpu_utilization | Utilizzo medio della GPU in tutte le istanze | node_gpu_utilization |
| node_gpu_memory_utilization | Utilizzo medio della memoria GPU in tutte le istanze | node_gpu_memory_utilization |
| node_cpu_utilization | Utilizzo medio della CPU in tutte le istanze | node_cpu_utilization |
| node_memory_utilization | Utilizzo medio della memoria in tutte le istanze | node_memory_utilization |