Installazione HyperPod dei pacchetti Metrics Exporter sul tuo cluster

Nella configurazione di base, gli script del ciclo di vita forniti dal SageMaker HyperPod team includono anche l'installazione di vari pacchetti Metric Exporter. Per attivare la fase di installazione, devi semplicemente impostare il parametro enable_observability=True nel file config.py. Gli script del ciclo di vita sono progettati per il bootstrap del cluster con i seguenti pacchetti di esportazione di metriche open source.

Nome	Nodo di destinazione per l’implementazione degli script	Descrizione dello strumento di esportazione
Strumento di esportazione Slurm per Prometheus	Nodo head (controller)	Esporta le metriche di accounting Slurm.
Esportazione di nodi Elastic Fabric Adapter (EFA)	Nodo di calcolo	Esporta le metriche dai nodi del cluster e da EFA. Il pacchetto è un fork dello strumento di esportazione di nodi Prometheus.
Strumento di esportazione di NVIDIA Data Center GPU Management (DCGM)	Nodo di calcolo	Esporta le metriche NVIDIA DCGM sull’integrità e sulle prestazioni delle GPU NVIDIA.

Con enable_observability=True nel file config.py, nello script viene attivata la fase di installazione seguente lifecycle_script.py.


# Install metric exporting software and Prometheus for observability
if Config.enable_observability:
    if node_type == SlurmNodeType.COMPUTE_NODE:
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_dcgm_exporter.sh").run()
        ExecuteBashScript("./utils/install_efa_node_exporter.sh").run()

    if node_type == SlurmNodeType.HEAD_NODE:
        wait_for_scontrol()
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_slurm_exporter.sh").run()
        ExecuteBashScript("./utils/install_prometheus.sh").run()

Sui nodi di calcolo, lo script installa lo strumento di esportazione di nodi NVIDIA Data Center GPU Management (DCGM) e lo strumento di esportazione di nodi Elastic Fabric Adapter (EFA). Lo strumento di esportazione DCGM è progettato per Prometheus e raccoglie metriche dalle GPU NVIDIA, abilitando il monitoraggio dell’utilizzo, delle prestazioni e dell’integrità della GPU. Lo strumento di esportazione di nodi EFA, invece, raccoglie metriche relative all’interfaccia di rete EFA, essenziale per comunicazioni a bassa latenza e larghezza di banda elevata nei cluster HPC.

Sul nodo head, lo script installa lo strumento di esportazione Slurm per Prometheus e il software open source Prometheus. Lo strumento di esportazione Slurm fornisce a Prometheus le metriche relative ai processi, alle partizioni e agli stati dei nodi Slurm.

Nota che gli script del ciclo di vita sono progettati per installare tutti i pacchetti di esportazione come container Docker, quindi il pacchetto Docker deve essere installato anche sui nodi head e di calcolo. Gli script per questi componenti sono comodamente disponibili nella utilscartella del repository Awsome Distributed Training. GitHub

Dopo aver configurato correttamente il HyperPod cluster installato con i pacchetti di esportazione, passa all'argomento successivo per completare la configurazione di Amazon Managed Service for Prometheus e Amazon Managed Grafana.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Prerequisiti

Convalida della configurazione Prometheus