Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Validation de la configuration de Prometheus sur le nœud principal d'un cluster HyperPod
Une fois que vous avez correctement configuré votre HyperPod cluster installé avec les packages d'exportation, vérifiez si Prometheus est correctement configuré sur le nœud principal de votre cluster. HyperPod
-
Connectez-vous au nœud principal de votre cluster. Pour obtenir des instructions sur la façon d’accéder à un nœud, consultez Accès aux nœuds SageMaker HyperPod de votre cluster.
-
Exécutez la commande suivante pour vérifier que le fichier de configuration et de service de Prometheus, créé par le script de cycle de vie
install_prometheus.sh, est exécuté sur le nœud de contrôleur. La sortie doit afficher le statut Actif sous la formeactive (running).$sudo systemctl status prometheus• prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active:active (running)since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml -
Validez le fichier de configuration de Prometheus comme suit. La sortie doit être similaire à la suivante, avec trois exportateurs configurés avec les bonnes adresses IP des nœuds de calcul.
$cat /etc/prometheus/prometheus.ymlglobal: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region> -
Pour vérifier si Prometheus exporte correctement les métriques Slurm, DCGM et EFA, exécutez la commande
curlsuivante pour Prometheus sur le port:9090du nœud principal.$curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'Les métriques étant exportées vers l’espace de travail Service géré Amazon pour Prometheus via la configuration d’écriture à distance de Prometheus depuis le nœud de contrôleur, vous pouvez passer à la rubrique suivante pour configurer les tableaux de bord Amazon Managed Grafana afin d’afficher ces métriques.