Métricas de Amazon SageMaker HyperPod Slurm - Amazon SageMaker AI

Métricas de Amazon SageMaker HyperPod Slurm

Amazon SageMaker HyperPod proporciona un conjunto de métricas de Amazon CloudWatch que se pueden utilizar para supervisar el estado y el rendimiento de los clústeres de HyperPod. Estas métricas se recopilan del administrador de cargas de trabajo de Slurm que se ejecutan en los clústeres de HyperPod y están disponibles en el espacio de nombres de CloudWatch /aws/sagemaker/Clusters.

Métricas de clúster

Las siguientes métricas de clúster están disponibles para HyperPod. Estas métricas utilizan la dimensión ClusterId para identificar el clúster de HyperPod específico.

Nombre de métrica de CloudWatch Notas Nombre de la métrica de Información de contenedores de Amazon EKS
cluster_node_count Número total de nodos en el clúster cluster_node_count
cluster_idle_node_count Número de nodos inactivos en el clúster N/A
cluster_failed_node_count Número de nodos fallidos en el clúster cluster_failed_node_count
cluster_cpu_count Número total de núcleos de CPU del clúster node_cpu_limit
cluster_idle_cpu_count Número de nodos de CPU inactivos en el clúster N/A
cluster_gpu_count Número total de GPU en el clúster node_gpu_limit
cluster_idle_gpu_count Número de GPU inactivos en el clúster N/A
cluster_running_task_count Número de trabajos de Slurm en ejecución en el clúster N/A
cluster_pending_task_count Número de trabajos de Slurm pendientes en el clúster N/A
cluster_preempted_task_count Número de trabajos de Slurm antepuestos en el clúster N/A
cluster_avg_task_wait_time Tiempo de espera medio de los trabajos de Slurm en el clúster N/A
cluster_max_task_wait_time Tiempo de espera máximo de los trabajos de Slurm en el clúster N/A

Métricas de nivel de instancia

Las siguientes métricas de instancia están disponibles para HyperPod. Estas métricas también utilizan la dimensión ClusterId para identificar el clúster de HyperPod específico.

Nombre de métrica de CloudWatch Notas Nombre de la métrica de Información de contenedores de Amazon EKS
node_gpu_utilization Utilización media de la GPU en todas las instancias node_gpu_utilization
node_gpu_memory_utilization Utilización media de la memoria de la GPU en todas las instancias node_gpu_memory_utilization
node_cpu_utilization Utilización media de la CPU en todas las instancias node_cpu_utilization
node_memory_utilization Utilización media de la memoria en todas las instancias node_memory_utilization