Tableau de bord de l’exportateur Slurm Tableau de bord de l’exportateur de nœuds Tableau de bord de l’exportateur NVIDIA DCGM Tableau de bord des métriques EFA Tableau de bord des métriques FSx pour Lustre

Référence des métriques exportées

Les sections suivantes présentent des listes complètes de métriques exportées depuis SageMaker HyperPod Amazon Managed Service for Prometheus une fois la configuration réussie de la pile à des fins d'observabilité CloudFormation . SageMaker HyperPod Vous pouvez commencer à surveiller ces métriques visualisées dans les tableaux de bord d’Amazon Managed Grafana.

Tableau de bord de l’exportateur Slurm

Fournit des informations visualisées sur les clusters Slurm sur. SageMaker HyperPod

Types de métriques

Vue d’ensemble du cluster : affichage du nombre total de nœuds, des tâches et de leurs états.
Métriques relatives aux tâches : visualisation du nombre de tâches et de leurs états au fil du temps.
Métriques des nœuds : affichage de l’état des nœuds, de leur allocation et des ressources disponibles.
Métriques de partition : surveillance des métriques spécifiques aux partitions, telles que l’utilisation du processeur, de la mémoire et du GPU.
Efficacité du travail : calcul de l’efficacité des tâches en fonction des ressources utilisées.

Liste des métriques

Nom des métriques	Description
`slurm_job_count`	Nombre total de tâches dans le cluster Slurm
`slurm_job_state_count`	Nombre de tâches dans chaque état (p. ex., en cours, en attente, terminées)
`slurm_node_count`	Nombre total de nœuds dans le cluster Slurm
`slurm_node_state_count`	Nombre de nœuds dans chaque état (p. ex., inactif, alloc, mix)
`slurm_partition_node_count`	Nombre de nœuds dans chaque partition
`slurm_partition_job_count`	Nombre de tâches dans chaque partition
`slurm_partition_alloc_cpus`	Nombre total de processeurs alloués dans chaque partition
`slurm_partition_free_cpus`	Nombre total de processeurs disponibles dans chaque partition
`slurm_partition_alloc_memory`	Mémoire allouée totale dans chaque partition
`slurm_partition_free_memory`	Mémoire disponible totale dans chaque partition
`slurm_partition_alloc_gpus`	Nombre total de GPU alloués dans chaque partition
`slurm_partition_free_gpus`	Nombre total de GPU disponibles dans chaque partition

Tableau de bord de l’exportateur de nœuds

Fournit des informations visualisées sur les métriques du système collectées par l'exportateur de nœuds Prometheus à partir des nœuds du cluster. HyperPod

Types de métriques

Vue d’ensemble du système : affichage des moyennes de charge du processeur et de l’utilisation de la mémoire.
Métriques de la mémoire : visualisation de l’utilisation de la mémoire, notamment de la mémoire totale, de la mémoire disponible et de l’espace d’échange.
Utilisation du disque : surveillance de l’utilisation et de la disponibilité de l’espace disque.
Trafic réseau : affichage des octets réseau reçus et transmis au fil du temps.
Métriques du système de fichiers : analyse de l’utilisation et de la disponibilité du système de fichiers.
I/O Métriques du disque : visualisation de l'activité de lecture et d'écriture sur le disque.

Liste des métriques

Pour une liste complète des métriques exportées, consultez les GitHub référentiels Node Exporter et procfs. Le tableau suivant présente un sous-ensemble des métriques qui fournit des informations sur l’utilisation des ressources du système, telles que la charge du processeur, l’utilisation de la mémoire, l’espace disque et l’activité réseau.

Nom des métriques	Description
`node_load1`	Moyenne de charge sur 1 minute
`node_load5`	Moyenne de charge sur 5 minutes
`node_load15`	Moyenne de charge sur 15 minutes
`node_memory_MemTotal`	Mémoire système totale
`node_memory_MemFree`	Mémoire système disponible
`node_memory_MemAvailable`	Mémoire disponible à allouer aux processus
`node_memory_Buffers`	Mémoire utilisée par le noyau pour la mise en mémoire tampon
`node_memory_Cached`	Mémoire utilisée par le noyau pour la mise en cache des données du système de fichiers
`node_memory_SwapTotal`	Espace d’échange total disponible
`node_memory_SwapFree`	Espace d’échange disponible
`node_memory_SwapCached`	Mémoire qui, une fois échangée, est rééchangée mais toujours en échange
`node_filesystem_avail_bytes`	Espace disque disponible en octets
`node_filesystem_size_bytes`	Espace disque total en octets
`node_filesystem_free_bytes`	Espace disque disponible en octets
`node_network_receive_bytes`	Octets réseau reçus
`node_network_transmit_bytes`	Octets réseau transmis
`node_disk_read_bytes`	Octets de disque lus
`node_disk_written_bytes`	Octets de disque écrits

Tableau de bord de l’exportateur NVIDIA DCGM

Fournit des informations visualisées sur les métriques des GPU NVIDIA, collectées par l’exportateur NVIDIA DCGM.

Types de métriques

Vue d’ensemble des GPU : affichage de l’utilisation, des températures, de la consommation d’énergie et de l’utilisation de la mémoire des GPU.
Métriques de température : visualisation des températures des GPU au fil du temps.
Consommation d’énergie : surveillance de la consommation d’énergie des GPU et des tendances en matière de consommation d’énergie.
Utilisation de la mémoire : analyse de l’utilisation de la mémoire des GPU, y compris la mémoire utilisée, la mémoire disponible et la mémoire totale.
Vitesse des ventilateurs : affichage des vitesses et des variations des ventilateurs des GPU.
Erreurs ECC : suivi des erreurs ECC de la mémoire des GPU et des erreurs en attente.

Liste des métriques

Le tableau suivant présente la liste des métriques qui fournissent des informations sur l’intégrité et les performances des GPU NVIDIA, notamment les fréquences d’horloge, les températures, la consommation d’énergie, l’utilisation de la mémoire, les vitesses des ventilateurs et les métriques d’erreur.

Nom des métriques	Description
`DCGM_FI_DEV_SM_CLOCK`	Fréquence d’horloge SM (en MHz)
`DCGM_FI_DEV_MEM_CLOCK`	Fréquence de l’horloge de la mémoire (en MHz)
`DCGM_FI_DEV_MEMORY_TEMP`	Température de la mémoire (en °C)
`DCGM_FI_DEV_GPU_TEMP`	Température du GPU (en °C)
`DCGM_FI_DEV_POWER_USAGE`	Consommation électrique (en W)
`DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION`	Consommation d’énergie totale depuis le démarrage (en mJ)
`DCGM_FI_DEV_PCIE_REPLAY_COUNTER`	Nombre total de nouvelles tentatives PCIe
`DCGM_FI_DEV_MEM_COPY_UTIL`	Utilisation de la mémoire (en %)
`DCGM_FI_DEV_ENC_UTIL`	Utilisation de l’encodeur (en %)
`DCGM_FI_DEV_DEC_UTIL`	Utilisation du décodeur (en %)
`DCGM_FI_DEV_XID_ERRORS`	Valeur de la dernière erreur XID rencontrée
`DCGM_FI_DEV_FB_FREE`	Mémoire tampon d’images disponible (en Mio)
`DCGM_FI_DEV_FB_USED`	Mémoire tampon d’images utilisée (en Mio)
`DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL`	Nombre total de compteurs de bande passante NVLink pour toutes les voies
`DCGM_FI_DEV_VGPU_LICENSE_STATUS`	Statut de la licence vGPU
`DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS`	Nombre de lignes remappées pour les erreurs non corrigeables
`DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS`	Nombre de lignes remappées pour les erreurs corrigeables
`DCGM_FI_DEV_ROW_REMAP_FAILURE`	Si le remappage des lignes a échoué

Tableau de bord des métriques EFA

Fournit des informations visualisées sur les métriques provenant d’Amazon Elastic Fabric Adapter (EFA) équipé d’instances P collectées par l’exportateur de nœuds EFA.

Types de métriques

Métriques d’erreur EFA : visualisation des erreurs telles que les erreurs d’allocation, les erreurs de commande et les erreurs de mappage mémoire.
Trafic réseau EFA : surveillance des octets, des paquets et des demandes de travail reçus et transmis.
Performances EFA RDMA : analyse des opérations de lecture et d’écriture RDMA, y compris des octets transférés et des taux d’erreur.
Durée de vie des ports EFA : affichage de la durée de vie des ports EFA au fil du temps.
Paquets EFA keep-alive : suivi du nombre de paquets keep-alive reçus.

Liste des métriques

Le tableau suivant présente la liste des métriques qui fournissent des informations sur divers aspects du fonctionnement de l’EFA, notamment les erreurs, les commandes terminées, le trafic réseau et l’utilisation des ressources.

Nom des métriques	Description
`node_amazonefa_info`	Non-numeric données provenant de/sys/class/infiniband/, la valeur est toujours 1.
`node_amazonefa_lifespan`	Durée de vie du port
`node_amazonefa_rdma_read_bytes`	Nombre d’octets lus avec RDMA
`node_amazonefa_rdma_read_resp_bytes`	Nombre d’octets de réponse de lecture avec RDMA
`node_amazonefa_rdma_read_wr_err`	Nombre d’erreurs de lecture et d’écriture avec RDMA
`node_amazonefa_rdma_read_wrs`	Nombre de rs lus avec RDMA
`node_amazonefa_rdma_write_bytes`	Nombre d’octets écrits avec RDMA
`node_amazonefa_rdma_write_recv_bytes`	Nombre d’octets écrits et reçus avec RDMA
`node_amazonefa_rdma_write_wr_err`	Nombre d’octets écrits avec une erreur RDMA
`node_amazonefa_rdma_write_wrs`	Nombre d’octets écrits wrs RDMA
`node_amazonefa_recv_bytes`	Nombre d’octets reçus
`node_amazonefa_recv_wrs`	Nombre d’octets reçus wrs
`node_amazonefa_rx_bytes`	Nombre d’octets reçus
`node_amazonefa_rx_drops`	Nombre de paquets abandonnés
`node_amazonefa_rx_pkts`	Nombre de paquets reçus
`node_amazonefa_send_bytes`	Nombre d’octets envoyés
`node_amazonefa_send_wrs`	Nombre de wrs envoyés
`node_amazonefa_tx_bytes`	Nombre d’octets transmis
`node_amazonefa_tx_pkts`	Nombre de paquets transmis

Tableau de bord des métriques FSx pour Lustre

Fournit des informations visualisées sur les métriques du système de fichiers Amazon FSx for Lustre collectées par Amazon. CloudWatch

Note

Le tableau de bord Grafana FSx for Lustre utilise Amazon CloudWatch comme source de données, ce qui est différent des autres tableaux de bord que vous avez configurés pour utiliser Amazon Managed Service pour Prometheus. Pour garantir une surveillance et une visualisation précises des métriques liées à votre système de fichiers FSx for Lustre, configurez le tableau de bord FSx for Lustre pour utiliser CloudWatch Amazon comme source de données, en spécifiant le Région AWS même endroit où votre système de fichiers FSx for Lustre est déployé.

Types de métriques

DataReadBytes: nombre d'octets pour les opérations de lecture du système de fichiers.
DataWriteBytes: nombre d'octets pour les opérations d'écriture dans le système de fichiers.
DataReadOperations: le nombre d'opérations de lecture.
DataWriteOperations: le nombre d'opérations d'écriture.
MetadataOperations: le nombre d'opérations sur les métadonnées.
FreeDataStorageCapacity: quantité de capacité de stockage disponible.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Configuration d’un espace de travail Grafana

Métriques Slurm