Metriche di Amazon SageMaker HyperPod Slurm - Amazon SageMaker AI

Metriche di Amazon SageMaker HyperPod Slurm

Amazon SageMaker HyperPod fornisce un set di metriche Amazon CloudWatch che puoi utilizzare per monitorare l’integrità e le prestazioni dei cluster HyperPod. Queste metriche vengono raccolte dal gestore del carico di lavoro Slurm in esecuzione sui cluster HyperPod e sono disponibili nel namespace CloudWatch /aws/sagemaker/Clusters.

Metriche a livello di cluster

Le metriche a livello di cluster seguenti sono disponibili per HyperPod. Queste metriche utilizzano la dimensione ClusterId per identificare lo specifico cluster HyperPod.

Nome del parametro CloudWatch Note Nome della metrica di Amazon ECS Container Insights
cluster_node_count Numero totale di nodi nel cluster cluster_node_count
cluster_idle_node_count Numero di nodi inattivi nel cluster N/D
cluster_failed_node_count Numero di nodi non riusciti nel cluster cluster_failed_node_count
cluster_cpu_count Numero totale di core CPU nel cluster node_cpu_limit
cluster_idle_cpu_count Numero di core CPU inattivi nel cluster N/D
cluster_gpu_count GPU totali nel cluster node_gpu_limit
cluster_idle_gpu_count Numero di GPU inattive nel cluster N/D
cluster_running_task_count Numero di processi Slurm in esecuzione nel cluster N/D
cluster_pending_task_count Numero di processi Slurm in sospeso nel cluster N/D
cluster_preempted_task_count Numero di processi Slurm prerilasciati nel cluster N/D
cluster_avg_task_wait_time Tempo di attesa medio per i processi Slurm nel cluster N/D
cluster_max_task_wait_time Tempo di attesa massimo per i processi Slurm nel cluster N/D

Metriche a livello di istanza

Per HyperPod sono disponibili le metriche a livello di istanza seguenti. Anche queste metriche utilizzano la dimensione ClusterId per identificare lo specifico cluster HyperPod.

Nome del parametro CloudWatch Note Nome della metrica di Amazon ECS Container Insights
node_gpu_utilization Utilizzo medio della GPU in tutte le istanze node_gpu_utilization
node_gpu_memory_utilization Utilizzo medio della memoria GPU in tutte le istanze node_gpu_memory_utilization
node_cpu_utilization Utilizzo medio della CPU in tutte le istanze node_cpu_utilization
node_memory_utilization Utilizzo medio della memoria in tutte le istanze node_memory_utilization