Installazione HyperPod dei pacchetti Metrics Exporter sul tuo cluster - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Installazione HyperPod dei pacchetti Metrics Exporter sul tuo cluster

Nella configurazione di base, gli script del ciclo di vita forniti dal SageMaker HyperPod team includono anche l'installazione di vari pacchetti Metric Exporter. Per attivare la fase di installazione, devi semplicemente impostare il parametro enable_observability=True nel file config.py. Gli script del ciclo di vita sono progettati per il bootstrap del cluster con i seguenti pacchetti di esportazione di metriche open source.

Nome Nodo di destinazione per l’implementazione degli script Descrizione dello strumento di esportazione
Strumento di esportazione Slurm per Prometheus Nodo head (controller)

Esporta le metriche di accounting Slurm.

Esportazione di nodi Elastic Fabric Adapter (EFA)

Nodo di calcolo

Esporta le metriche dai nodi del cluster e da EFA. Il pacchetto è un fork dello strumento di esportazione di nodi Prometheus.

Strumento di esportazione di NVIDIA Data Center GPU Management (DCGM)

Nodo di calcolo

Esporta i parametri NVIDIA DCGM sullo stato e le prestazioni di NVIDIA. GPUs

Con enable_observability=True nel file config.py, nello script viene attivata la fase di installazione seguente lifecycle_script.py.

# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()

Sui nodi di calcolo, lo script installa lo strumento di esportazione di nodi NVIDIA Data Center GPU Management (DCGM) e lo strumento di esportazione di nodi Elastic Fabric Adapter (EFA). L'esportatore DCGM è un esportatore per Prometheus che raccoglie metriche da GPUs NVIDIA, abilitando il monitoraggio dell'utilizzo, delle prestazioni e dello stato della GPU. Lo strumento di esportazione di nodi EFA, invece, raccoglie metriche relative all’interfaccia di rete EFA, essenziale per comunicazioni a bassa latenza e larghezza di banda elevata nei cluster HPC.

Sul nodo head, lo script installa lo strumento di esportazione Slurm per Prometheus e il software open source Prometheus. Lo strumento di esportazione Slurm fornisce a Prometheus le metriche relative ai processi, alle partizioni e agli stati dei nodi Slurm.

Nota che gli script del ciclo di vita sono progettati per installare tutti i pacchetti di esportazione come container Docker, quindi il pacchetto Docker deve essere installato anche sui nodi head e di calcolo. Gli script per questi componenti sono comodamente disponibili nella cartella del repository Awsome Distributed Training. utils GitHub

Dopo aver configurato correttamente il HyperPod cluster installato con i pacchetti di esportazione, passa all'argomento successivo per completare la configurazione di Amazon Managed Service for Prometheus e Amazon Managed Grafana.