Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Installazione HyperPod dei pacchetti Metrics Exporter sul tuo cluster
Nella configurazione di base, gli script del ciclo di vita forniti dal SageMaker HyperPod team includono anche l'installazione di vari pacchetti Metric Exporter. Per attivare la fase di installazione, devi semplicemente impostare il parametro enable_observability=True nel file config.py
| Nome | Nodo di destinazione per l’implementazione degli script | Descrizione dello strumento di esportazione |
| Strumento di esportazione Slurm per Prometheus |
Nodo head (controller) |
Esporta le metriche di accounting Slurm. |
|
Nodo di calcolo |
Esporta le metriche dai nodi del cluster e da EFA. Il pacchetto è un fork dello strumento di esportazione di nodi Prometheus |
|
|
Strumento di esportazione di NVIDIA Data Center GPU Management (DCGM) |
Nodo di calcolo |
Esporta i parametri NVIDIA DCGM sullo stato e le prestazioni di NVIDIA. GPUs |
Con enable_observability=True nel file config.pylifecycle_script.py
# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()
Sui nodi di calcolo, lo script installa lo strumento di esportazione di nodi NVIDIA Data Center GPU Management (DCGM) e lo strumento di esportazione di nodi Elastic Fabric Adapter (EFA). L'esportatore DCGM è un esportatore per Prometheus che raccoglie metriche da GPUs NVIDIA, abilitando il monitoraggio dell'utilizzo, delle prestazioni e dello stato della GPU. Lo strumento di esportazione di nodi EFA, invece, raccoglie metriche relative all’interfaccia di rete EFA, essenziale per comunicazioni a bassa latenza e larghezza di banda elevata nei cluster HPC.
Sul nodo head, lo script installa lo strumento di esportazione Slurm per Prometheus e il software open source Prometheus
Nota che gli script del ciclo di vita sono progettati per installare tutti i pacchetti di esportazione come container Docker, quindi il pacchetto Docker deve essere installato anche sui nodi head e di calcolo. Gli script per questi componenti sono comodamente disponibili nella cartella del repository Awsome Distributed Training. utils
Dopo aver configurato correttamente il HyperPod cluster installato con i pacchetti di esportazione, passa all'argomento successivo per completare la configurazione di Amazon Managed Service for Prometheus e Amazon Managed Grafana.