Référence des métriques exportées - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Référence des métriques exportées

Les sections suivantes présentent des listes complètes de métriques exportées depuis SageMaker HyperPod Amazon Managed Service for Prometheus après la configuration réussie de la pile à des fins d'observabilitéCloudFormation. SageMaker HyperPod Vous pouvez commencer à surveiller ces métriques visualisées dans les tableaux de bord d’Amazon Managed Grafana.

Tableau de bord de l’exportateur Slurm

Fournit des informations visualisées sur les clusters Slurm sur. SageMaker HyperPod

Types de métriques

  • Vue d’ensemble du cluster : affichage du nombre total de nœuds, des tâches et de leurs états.

  • Métriques relatives aux tâches : visualisation du nombre de tâches et de leurs états au fil du temps.

  • Métriques des nœuds : affichage de l’état des nœuds, de leur allocation et des ressources disponibles.

  • Métriques de partition : surveillance des métriques spécifiques aux partitions, telles que l’utilisation du processeur, de la mémoire et du GPU.

  • Efficacité du travail : calcul de l’efficacité des tâches en fonction des ressources utilisées.

Liste des métriques

Nom des métriques Description
slurm_job_count Nombre total de tâches dans le cluster Slurm
slurm_job_state_count Nombre de tâches dans chaque état (p. ex., en cours, en attente, terminées)
slurm_node_count Nombre total de nœuds dans le cluster Slurm
slurm_node_state_count Nombre de nœuds dans chaque état (p. ex., inactif, alloc, mix)
slurm_partition_node_count Nombre de nœuds dans chaque partition
slurm_partition_job_count Nombre de tâches dans chaque partition
slurm_partition_alloc_cpus Nombre total de personnes allouées CPUs dans chaque partition
slurm_partition_free_cpus Nombre total de disques disponibles CPUs dans chaque partition
slurm_partition_alloc_memory Mémoire allouée totale dans chaque partition
slurm_partition_free_memory Mémoire disponible totale dans chaque partition
slurm_partition_alloc_gpus Total alloué GPUs dans chaque partition
slurm_partition_free_gpus Total disponible GPUs dans chaque partition

Tableau de bord de l’exportateur de nœuds

Fournit des informations visualisées sur les métriques du système collectées par l'exportateur de nœuds Prometheus à partir des nœuds du cluster. HyperPod

Types de métriques

  • Vue d’ensemble du système : affichage des moyennes de charge du processeur et de l’utilisation de la mémoire.

  • Métriques de la mémoire : visualisation de l’utilisation de la mémoire, notamment de la mémoire totale, de la mémoire disponible et de l’espace d’échange.

  • Utilisation du disque : surveillance de l’utilisation et de la disponibilité de l’espace disque.

  • Trafic réseau : affichage des octets réseau reçus et transmis au fil du temps.

  • Métriques du système de fichiers : analyse de l’utilisation et de la disponibilité du système de fichiers.

  • I/O Métriques du disque : visualisation de l'activité de lecture et d'écriture sur le disque.

Liste des métriques

Pour une liste complète des métriques exportées, consultez les GitHub référentiels Node Exporter et procfs. Le tableau suivant présente un sous-ensemble des métriques qui fournit des informations sur l’utilisation des ressources du système, telles que la charge du processeur, l’utilisation de la mémoire, l’espace disque et l’activité réseau.

Nom des métriques Description
node_load1 Moyenne de charge sur 1 minute
node_load5 Moyenne de charge sur 5 minutes
node_load15 Moyenne de charge sur 15 minutes
node_memory_MemTotal Mémoire système totale
node_memory_MemFree Mémoire système disponible
node_memory_MemAvailable Mémoire disponible à allouer aux processus
node_memory_Buffers Mémoire utilisée par le noyau pour la mise en mémoire tampon
node_memory_Cached Mémoire utilisée par le noyau pour la mise en cache des données du système de fichiers
node_memory_SwapTotal Espace d’échange total disponible
node_memory_SwapFree Espace d’échange disponible
node_memory_SwapCached Mémoire qui, une fois échangée, est rééchangée mais toujours en échange
node_filesystem_avail_bytes Espace disque disponible en octets
node_filesystem_size_bytes Espace disque total en octets
node_filesystem_free_bytes Espace disque disponible en octets
node_network_receive_bytes Octets réseau reçus
node_network_transmit_bytes Octets réseau transmis
node_disk_read_bytes Octets de disque lus
node_disk_written_bytes Octets de disque écrits

Tableau de bord de l’exportateur NVIDIA DCGM

Fournit des informations visualisées sur les métriques des GPU NVIDIA, collectées par l’exportateur NVIDIA DCGM.

Types de métriques

  • Vue d’ensemble des GPU : affichage de l’utilisation, des températures, de la consommation d’énergie et de l’utilisation de la mémoire des GPU.

  • Métriques de température : visualisation des températures des GPU au fil du temps.

  • Consommation d’énergie : surveillance de la consommation d’énergie des GPU et des tendances en matière de consommation d’énergie.

  • Utilisation de la mémoire : analyse de l’utilisation de la mémoire des GPU, y compris la mémoire utilisée, la mémoire disponible et la mémoire totale.

  • Vitesse des ventilateurs : affichage des vitesses et des variations des ventilateurs des GPU.

  • Erreurs ECC : suivi des erreurs ECC de la mémoire des GPU et des erreurs en attente.

Liste des métriques

Le tableau suivant présente la liste des métriques qui fournissent des informations sur l’intégrité et les performances des GPU NVIDIA, notamment les fréquences d’horloge, les températures, la consommation d’énergie, l’utilisation de la mémoire, les vitesses des ventilateurs et les métriques d’erreur.

Nom des métriques Description
DCGM_FI_DEV_SM_CLOCK Fréquence d'horloge SM (in MHz)
DCGM_FI_DEV_MEM_CLOCK Fréquence d'horloge de la mémoire (in MHz)
DCGM_FI_DEV_MEMORY_TEMP Température de la mémoire (en °C)
DCGM_FI_DEV_GPU_TEMP Température du GPU (en °C)
DCGM_FI_DEV_POWER_USAGE Consommation électrique (en W)
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Consommation d’énergie totale depuis le démarrage (en mJ)
DCGM_FI_DEV_PCIE_REPLAY_COUNTER Nombre total de PCIe tentatives
DCGM_FI_DEV_MEM_COPY_UTIL Utilisation de la mémoire (en %)
DCGM_FI_DEV_ENC_UTIL Utilisation de l’encodeur (en %)
DCGM_FI_DEV_DEC_UTIL Utilisation du décodeur (en %)
DCGM_FI_DEV_XID_ERRORS Valeur de la dernière erreur XID rencontrée
DCGM_FI_DEV_FB_FREE Mémoire tampon d’images disponible (en Mio)
DCGM_FI_DEV_FB_USED Mémoire tampon d’images utilisée (en Mio)
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL Nombre total de compteurs de NVLink bande passante pour toutes les voies
DCGM_FI_DEV_VGPU_LICENSE_STATUS Statut de la licence vGPU
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS Nombre de lignes remappées pour les erreurs non corrigeables
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS Nombre de lignes remappées pour les erreurs corrigeables
DCGM_FI_DEV_ROW_REMAP_FAILURE Si le remappage des lignes a échoué

Tableau de bord des métriques EFA

Fournit des informations visualisées sur les métriques provenant d’Amazon Elastic Fabric Adapter (EFA) équipé d’instances P collectées par l’exportateur de nœuds EFA.

Types de métriques

  • Métriques d’erreur EFA : visualisation des erreurs telles que les erreurs d’allocation, les erreurs de commande et les erreurs de mappage mémoire.

  • Trafic réseau EFA : surveillance des octets, des paquets et des demandes de travail reçus et transmis.

  • Performances EFA RDMA : analyse des opérations de lecture et d’écriture RDMA, y compris des octets transférés et des taux d’erreur.

  • Durée de vie des ports EFA : affichage de la durée de vie des ports EFA au fil du temps.

  • Paquets EFA keep-alive : suivi du nombre de paquets keep-alive reçus.

Liste des métriques

Le tableau suivant présente la liste des métriques qui fournissent des informations sur divers aspects du fonctionnement de l’EFA, notamment les erreurs, les commandes terminées, le trafic réseau et l’utilisation des ressources.

Nom des métriques Description
node_amazonefa_info Données non numériques provenant de/sys/class/infiniband/, la valeur est toujours 1.
node_amazonefa_lifespan Durée de vie du port
node_amazonefa_rdma_read_bytes Nombre d’octets lus avec RDMA
node_amazonefa_rdma_read_resp_bytes Nombre d’octets de réponse de lecture avec RDMA
node_amazonefa_rdma_read_wr_err Nombre d’erreurs de lecture et d’écriture avec RDMA
node_amazonefa_rdma_read_wrs Nombre de rs lus avec RDMA
node_amazonefa_rdma_write_bytes Nombre d’octets écrits avec RDMA
node_amazonefa_rdma_write_recv_bytes Nombre d’octets écrits et reçus avec RDMA
node_amazonefa_rdma_write_wr_err Nombre d’octets écrits avec une erreur RDMA
node_amazonefa_rdma_write_wrs Nombre d’octets écrits wrs RDMA
node_amazonefa_recv_bytes Nombre d’octets reçus
node_amazonefa_recv_wrs Nombre d’octets reçus wrs
node_amazonefa_rx_bytes Nombre d’octets reçus
node_amazonefa_rx_drops Nombre de paquets abandonnés
node_amazonefa_rx_pkts Nombre de paquets reçus
node_amazonefa_send_bytes Nombre d’octets envoyés
node_amazonefa_send_wrs Nombre de wrs envoyés
node_amazonefa_tx_bytes Nombre d’octets transmis
node_amazonefa_tx_pkts Nombre de paquets transmis

FSx pour le tableau de bord des métriques Lustre

Fournit des informations visualisées sur les métriques du système de fichiers Amazon FSx for Lustre collectées par Amazon CloudWatch.

Note

Le tableau de bord Grafana FSx for Lustre utilise CloudWatch Amazon comme source de données, ce qui est différent des autres tableaux de bord que vous avez configurés pour utiliser Amazon Managed Service for Prometheus. Pour garantir une surveillance et une visualisation précises des métriques relatives à votre système de fichiers FSx for Lustre, configurez le tableau de bord FSx for Lustre pour utiliser Amazon CloudWatch comme source de données, en spécifiant le même Région AWS endroit où votre système de fichiers FSx for Lustre est déployé.

Types de métriques

  • DataReadBytes: nombre d'octets pour les opérations de lecture du système de fichiers.

  • DataWriteBytes: nombre d'octets pour les opérations d'écriture dans le système de fichiers.

  • DataReadOperations: le nombre d'opérations de lecture.

  • DataWriteOperations: le nombre d'opérations d'écriture.

  • MetadataOperations: le nombre d'opérations sur les métadonnées.

  • FreeDataStorageCapacity: quantité de capacité de stockage disponible.