Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Statistiques d'Amazon SageMaker HyperPod Slurm
Amazon SageMaker HyperPod fournit un ensemble de CloudWatch métriques Amazon que vous pouvez utiliser pour surveiller l'état et les performances de vos HyperPod clusters. Ces métriques sont collectées à partir du gestionnaire de charge de travail Slurm exécuté sur vos HyperPod clusters et sont disponibles dans l'/aws/sagemaker/Clusters CloudWatch espace de noms.
Métriques de niveau cluster
Les métriques suivantes au niveau du cluster sont disponibles pour. HyperPod Ces métriques utilisent la ClusterId dimension pour identifier le HyperPod cluster spécifique.
| CloudWatch nom de la métrique | Remarques | Nom de la métrique Container Insights pour Amazon EKS |
|---|---|---|
| cluster_node_count | Nombre total de nœuds dans le cluster | cluster_node_count |
| cluster_idle_node_count | Nombre de nœuds inactifs dans le cluster | N/A |
| cluster_failed_node_count | Nombre de nœuds défaillants dans le cluster | cluster_failed_node_count |
| cluster_cpu_count | Nombre total de cœurs de processeur dans le cluster | node_cpu_limit |
| cluster_idle_cpu_count | Nombre de cœurs de processeur inactifs dans le cluster | N/A |
| cluster_gpu_count | Total GPUs dans le cluster | node_gpu_limit |
| cluster_idle_gpu_count | Nombre de périodes inactives GPUs dans le cluster | N/A |
| cluster_running_task_count | Nombre de tâches Slurm en cours d’exécution dans le cluster | N/A |
| cluster_pending_task_count | Nombre de tâches Slurm en attente dans le cluster | N/A |
| cluster_preempted_task_count | Nombre de tâches Slurm préemptées dans le cluster | N/A |
| cluster_avg_task_wait_time | Temps d’attente moyen pour les tâches Slurm dans le cluster | N/A |
| cluster_max_task_wait_time | Temps d’attente maximal pour les tâches Slurm dans le cluster | N/A |
Métriques de niveau instance
Les métriques suivantes au niveau de l'instance sont disponibles pour. HyperPod Ces métriques utilisent également la ClusterId dimension pour identifier le HyperPod cluster spécifique.
| CloudWatch nom de la métrique | Remarques | Nom de la métrique Container Insights pour Amazon EKS |
|---|---|---|
| node_gpu_utilization | Utilisation moyenne des GPU sur toutes les instances | node_gpu_utilization |
| node_gpu_memory_utilization | Utilisation moyenne de la mémoire par les GPU sur toutes les instances | node_gpu_memory_utilization |
| node_cpu_utilization | Utilisation moyenne du processeur sur toutes les instances | node_cpu_utilization |
| node_memory_utilization | Utilisation moyenne de la mémoire sur toutes les instances | node_memory_utilization |