Métricas de Amazon SageMaker HyperPod Slurm
Amazon SageMaker HyperPod proporciona un conjunto de métricas de Amazon CloudWatch que se pueden utilizar para supervisar el estado y el rendimiento de los clústeres de HyperPod. Estas métricas se recopilan del administrador de cargas de trabajo de Slurm que se ejecutan en los clústeres de HyperPod y están disponibles en el espacio de nombres de CloudWatch /aws/sagemaker/Clusters.
Métricas de clúster
Las siguientes métricas de clúster están disponibles para HyperPod. Estas métricas utilizan la dimensión ClusterId para identificar el clúster de HyperPod específico.
| Nombre de métrica de CloudWatch | Notas | Nombre de la métrica de Información de contenedores de Amazon EKS |
|---|---|---|
| cluster_node_count | Número total de nodos en el clúster | cluster_node_count |
| cluster_idle_node_count | Número de nodos inactivos en el clúster | N/A |
| cluster_failed_node_count | Número de nodos fallidos en el clúster | cluster_failed_node_count |
| cluster_cpu_count | Número total de núcleos de CPU del clúster | node_cpu_limit |
| cluster_idle_cpu_count | Número de nodos de CPU inactivos en el clúster | N/A |
| cluster_gpu_count | Número total de GPU en el clúster | node_gpu_limit |
| cluster_idle_gpu_count | Número de GPU inactivos en el clúster | N/A |
| cluster_running_task_count | Número de trabajos de Slurm en ejecución en el clúster | N/A |
| cluster_pending_task_count | Número de trabajos de Slurm pendientes en el clúster | N/A |
| cluster_preempted_task_count | Número de trabajos de Slurm antepuestos en el clúster | N/A |
| cluster_avg_task_wait_time | Tiempo de espera medio de los trabajos de Slurm en el clúster | N/A |
| cluster_max_task_wait_time | Tiempo de espera máximo de los trabajos de Slurm en el clúster | N/A |
Métricas de nivel de instancia
Las siguientes métricas de instancia están disponibles para HyperPod. Estas métricas también utilizan la dimensión ClusterId para identificar el clúster de HyperPod específico.
| Nombre de métrica de CloudWatch | Notas | Nombre de la métrica de Información de contenedores de Amazon EKS |
|---|---|---|
| node_gpu_utilization | Utilización media de la GPU en todas las instancias | node_gpu_utilization |
| node_gpu_memory_utilization | Utilización media de la memoria de la GPU en todas las instancias | node_gpu_memory_utilization |
| node_cpu_utilization | Utilización media de la CPU en todas las instancias | node_cpu_utilization |
| node_memory_utilization | Utilización media de la memoria en todas las instancias | node_memory_utilization |