Convalida della configurazione di Prometheus sul nodo principale di un cluster HyperPod

Dopo aver configurato correttamente il HyperPod cluster installato con i pacchetti exporter, controlla se Prometheus è configurato correttamente sul nodo principale del cluster. HyperPod

Connettiti al nodo head del cluster. Per istruzioni su come accedere a un nodo, consulta Accesso ai nodi SageMaker HyperPod del cluster.

Utilizza il comando seguente per verificare che il file di configurazione e servizio di Prometheus creato dallo script del ciclo di vita install_prometheus.sh sia in esecuzione sul nodo controller. L’output dovrebbe mostrare lo stato Attivo active (running).


$ sudo systemctl status prometheus
• prometheus service - Prometheus Exporter
Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
Main PID: 12345 (prometheus)
Tasks: 7 (limit: 9281)
Memory: 35M
CPU: 234ms
CGroup: /system.slice/prometheus.service
        -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml

Convalida il file di configurazione di Prometheus come segue. L’output deve essere simile al seguente, con tre strumenti di esportazione configurati con gli indirizzi IP dei nodi di calcolo corretti.


$ cat /etc/prometheus/prometheus.yml
global:
  scrape_interval: 15s
  evaluation_interval: 15s
  scrape_timeout: 15s

scrape_configs:
  - job_name: 'slurm_exporter'
    static_configs:
      - targets:
          - 'localhost:8080'
  - job_name: 'dcgm_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9400'
          - '<ComputeNodeIP>:9400'
  - job_name: 'efa_node_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9100'
          - '<ComputeNodeIP>:9100'

remote_write:
  - url: <AMPReoteWriteURL>
    queue_config:
      max_samples_per_send: 1000
      max_shards: 200
      capacity: 2500
    sigv4:
      region: <Region>

Per verificare se Prometheus sta esportando correttamente le metriche Slurm, DCGM ed EFA, esegui questo comando curl per Prometheus sulla porta :9090 sul nodo head.
```
$ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
```
Con le metriche esportate nello spazio di lavoro Servizio gestito da Amazon per Prometheus tramite la configurazione della scrittura remota di Prometheus dal nodo controller, puoi passare all’argomento successivo per configurare le dashboard di Grafana gestito da Amazon per visualizzare le metriche.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Installazione dei pacchetti di esportazione di metriche

Configurazione di uno spazio di lavoro Grafana