Dashboard di esportazione Slurm Dashboard di esportazione di nodi Dashboard di esportazione NVIDIA DCGM Dashboard delle metriche EFA Dashboard delle metriche di FSx per Lustre

Riferimento delle metriche esportate

Le seguenti sezioni presentano elenchi completi di metriche esportate da SageMaker HyperPod Amazon Managed Service for Prometheus dopo la corretta configurazione dello stack per l'osservabilità. CloudFormation SageMaker HyperPod Puoi iniziare a monitorare le metriche visualizzate nelle dashboard di Grafana gestito da Amazon.

Dashboard di esportazione Slurm

Fornisce informazioni visualizzate sui cluster Slurm su. SageMaker HyperPod

Tipi di metriche

Panoramica del cluster: visualizzazione del numero totale di nodi, processi e relativi stati.
Metriche dei processi: visualizzazione del numero e dello stato dei processi nel tempo.
Metriche dei nodi: visualizzazione degli stati, dell’allocazione e delle risorse disponibili dei nodi.
Metriche delle partizioni: monitoraggio di metriche specifiche della partizione come l’utilizzo di CPU, memoria e GPU.
Efficienza dei processi: calcolo dell’efficienza dei processi in base alle risorse utilizzate.

Elenco delle metriche

Nome parametro	Description
`slurm_job_count`	Numero totale di processi nel cluster Slurm
`slurm_job_state_count`	Numero di processi in ogni stato (ad esempio, in esecuzione, in sospeso, completati)
`slurm_node_count`	Numero totale di nodi nel cluster Slurm
`slurm_node_state_count`	Numero di nodi in ogni stato (ad esempio, inattivo, allocato, misto)
`slurm_partition_node_count`	Numero di nodi in ogni partizione
`slurm_partition_job_count`	Numero di processi in ogni partizione
`slurm_partition_alloc_cpus`	Numero totale di CPU allocate in ogni partizione
`slurm_partition_free_cpus`	Numero totale di CPU disponibili in ogni partizione
`slurm_partition_alloc_memory`	Memoria totale allocata in ogni partizione
`slurm_partition_free_memory`	Memoria totale disponibile in ogni partizione
`slurm_partition_alloc_gpus`	GPU totali allocate in ogni partizione
`slurm_partition_free_gpus`	GPU totali disponibili in ogni partizione

Dashboard di esportazione di nodi

Fornisce informazioni visualizzate sulle metriche di sistema raccolte dall'esportatore di nodi Prometheus dai nodi del cluster. HyperPod

Tipi di metriche

Panoramica del sistema: visualizzazione delle medie di carico della CPU e dell’utilizzo della memoria.
Metriche della memoria: visualizzazione dell’utilizzo della memoria, tra cui memoria totale, memoria libera e spazio di swap.
Utilizzo del disco: monitoraggio dell’utilizzo e della disponibilità dello spazio su disco.
Traffico di rete: visualizzazione dei byte di rete ricevuti e trasmessi nel tempo.
Metriche del file system: analisi dell’utilizzo e della disponibilità del file system.
I/O Metriche del disco: visualizzazione dell'attività di lettura e scrittura su disco.

Elenco delle metriche

Per un elenco completo delle metriche esportate, consultate i repository Node exporter e procfs. GitHub La tabella seguente mostra un sottoinsieme di metriche che fornisce informazioni approfondite sull’utilizzo delle risorse di sistema, come il carico della CPU, l’utilizzo della memoria, lo spazio su disco e l’attività di rete.

Nome parametro	Description
`node_load1`	Carico medio ogni minuto
`node_load5`	Carico medio ogni 5 minuti
`node_load15`	Carico medio ogni 15 minuti
`node_memory_MemTotal`	Memoria totale di sistema
`node_memory_MemFree`	Memoria di sistema libera
`node_memory_MemAvailable`	Memoria disponibile per l’allocazione dei processi
`node_memory_Buffers`	Memoria utilizzata dal kernel per il buffering
`node_memory_Cached`	Memoria utilizzata dal kernel per il caching dei dati del file system
`node_memory_SwapTotal`	Spazio di swap totale disponibile
`node_memory_SwapFree`	Spazio di swap libero
`node_memory_SwapCached`	Memoria precedentemente sottoposta a swap, che viene reinserita ma resta in modalità swap
`node_filesystem_avail_bytes`	Spazio disponibile su disco in byte
`node_filesystem_size_bytes`	Spazio totale su disco in byte
`node_filesystem_free_bytes`	Spazio libero su disco in byte
`node_network_receive_bytes`	Byte di rete ricevuti
`node_network_transmit_bytes`	Byte di rete trasmessi
`node_disk_read_bytes`	Byte del disco letti
`node_disk_written_bytes`	Byte del disco scritti

Dashboard di esportazione NVIDIA DCGM

Fornisce informazioni visive sulle metriche delle GPU NVIDIA raccolte dallo strumento di esportazione NVIDIA DCGM.

Tipi di metriche

Panoramica della GPU: visualizzazione dell’utilizzo della GPU, delle temperature, del consumo energetico e della memoria.
Metriche di temperatura: visualizzazione delle temperature della GPU nel tempo.
Consumo energetico: monitoraggio dell’assorbimento energetico della GPU e delle tendenze del consumo energetico.
Utilizzo della memoria: analisi dell’utilizzo della memoria della GPU, che include la memoria utilizzata, quella libera e quella totale.
Velocità della ventola: visualizzazione delle velocità e delle variazioni delle ventole della GPU.
Errori ECC: tracciamento degli errori ECC della memoria GPU e degli errori in sospeso.

Elenco delle metriche

La tabella seguente mostra un elenco di metriche che fornisce informazioni approfondite sull’integrità e sulle prestazioni della GPU NVIDIA, tra cui frequenze di clock, temperature, consumo energetico, utilizzo della memoria, velocità delle ventole e metriche di errore.

Nome parametro	Description
`DCGM_FI_DEV_SM_CLOCK`	Frequenza di clock SM (in MHz)
`DCGM_FI_DEV_MEM_CLOCK`	Frequenza di clock della memoria (in MHz)
`DCGM_FI_DEV_MEMORY_TEMP`	Temperatura della memoria (in °C)
`DCGM_FI_DEV_GPU_TEMP`	Temperatura della GPU (in °C)
`DCGM_FI_DEV_POWER_USAGE`	Potenza assorbita (in W)
`DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION`	Consumo energetico totale dall’avvio (in mJ)
`DCGM_FI_DEV_PCIE_REPLAY_COUNTER`	Numero totale di tentativi PCIe
`DCGM_FI_DEV_MEM_COPY_UTIL`	Utilizzo della memoria (in %)
`DCGM_FI_DEV_ENC_UTIL`	Utilizzo dell’encoder (in %)
`DCGM_FI_DEV_DEC_UTIL`	Utilizzo del decoder (in %)
`DCGM_FI_DEV_XID_ERRORS`	Valore dell’ultimo errore XID rilevato
`DCGM_FI_DEV_FB_FREE`	Memoria libera del frame buffer (in MiB)
`DCGM_FI_DEV_FB_USED`	Memoria utilizzata del frame buffer (in MiB)
`DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL`	Numero totale di contatori di larghezza di banda NVLink per tutti i percorsi
`DCGM_FI_DEV_VGPU_LICENSE_STATUS`	Stato della licenza vGPU
`DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS`	Numero di righe rimappate per errori non correggibili
`DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS`	Numero di righe rimappate per errori correggibili
`DCGM_FI_DEV_ROW_REMAP_FAILURE`	Esito negativo della rimappatura delle righe

Dashboard delle metriche EFA

Fornisce informazioni visive sulle metriche raccolte tramite lo strumento di esportazione di nodi EFA con Amazon Elastic Fabric Adapter (EFA) installato nelle istanze P.

Tipi di metriche

Metriche di errore EFA: visualizzazione di errori quali quelli di allocazione, dei comandi e della mappa di memoria.
Traffico di rete EFA: monitoraggio di byte, pacchetti e richieste di processi ricevuti e trasmessi.
Prestazioni RDMA EFA: analisi delle operazioni di lettura e scrittura RDMA, inclusi i byte trasferiti e i tassi di errore.
Durata delle porte EFA: visualizzazione della durata delle porte EFA nel tempo.
Pacchetti keep-alive EFA: tracciamento del numero di pacchetti keep-alive ricevuti.

Elenco delle metriche

La tabella seguente mostra un elenco di metriche che fornisce informazioni approfondite su vari aspetti del funzionamento di EFA, tra cui errori, comandi completati, traffico di rete e utilizzo delle risorse.

Nome parametro	Description
`node_amazonefa_info`	Non-numeric dati da/sys/class/infiniband/, il valore è sempre 1.
`node_amazonefa_lifespan`	Durata della porta
`node_amazonefa_rdma_read_bytes`	Numero di byte letti con RDMA
`node_amazonefa_rdma_read_resp_bytes`	Numero di byte di risposta letti con RDMA
`node_amazonefa_rdma_read_wr_err`	Numero di errori di scrittura letti con RDMA
`node_amazonefa_rdma_read_wrs`	Numero di scritture lette con RDMA
`node_amazonefa_rdma_write_bytes`	Numero di byte scritti con RDMA
`node_amazonefa_rdma_write_recv_bytes`	Numero di byte scritti e ricevuti con RDMA
`node_amazonefa_rdma_write_wr_err`	Numero di byte scritti con errore RDMA
`node_amazonefa_rdma_write_wrs`	Numero di byte di scritture scritti con RDMA
`node_amazonefa_recv_bytes`	Numero di byte ricevuti
`node_amazonefa_recv_wrs`	Numero di byte di scritture ricevuti
`node_amazonefa_rx_bytes`	Numero di byte ricevuti
`node_amazonefa_rx_drops`	Numero di pacchetti annullati
`node_amazonefa_rx_pkts`	Numero di pacchetti ricevuti
`node_amazonefa_send_bytes`	Numero di byte inviati
`node_amazonefa_send_wrs`	Numero di scritture inviate
`node_amazonefa_tx_bytes`	Numero di byte trasmessi
`node_amazonefa_tx_pkts`	Numero di pacchetti trasmessi

Dashboard delle metriche di FSx per Lustre

Fornisce informazioni visualizzate sulle metriche del file system Amazon FSx for Lustre raccolte da Amazon. CloudWatch

Nota

La dashboard Grafana FSx for Lustre utilizza CloudWatch Amazon come fonte di dati, che si differenzia dalle altre dashboard configurate per utilizzare Amazon Managed Service for Prometheus. Per garantire un monitoraggio e una visualizzazione accurati delle metriche relative al file system FSx for Lustre, configura la dashboard FSx for Lustre per utilizzare CloudWatch Amazon come fonte di dati, specificando lo stesso luogo in cui Regione AWS viene distribuito il file system FSx for Lustre.

Tipi di metriche

DataReadBytes: Il numero di byte per le operazioni di lettura del file system.
DataWriteBytes: il numero di byte per le operazioni di scrittura del file system.
DataReadOperations: Il numero di operazioni di lettura.
DataWriteOperations: Il numero di operazioni di scrittura.
MetadataOperations: Il numero di operazioni sui metadati.
FreeDataStorageCapacity: La quantità di capacità di archiviazione disponibile.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Configurazione di uno spazio di lavoro Grafana

Metriche di Slurm