

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Observabilité des clusters et des tâches
<a name="sagemaker-hyperpod-eks-cluster-observability-cluster"></a>

Il existe deux options pour surveiller les SageMaker HyperPod clusters :

**Le module complémentaire SageMaker HyperPod d'observabilité** SageMaker HyperPod fournit un tableau de out-of-the-box bord complet qui vous donne un aperçu des tâches de développement du modèle de base (FM) et des ressources du cluster. Cette solution d’observabilité unifiée publie automatiquement les métriques clés sur le service géré Amazon pour Prometheus et les affiche dans les tableaux de bord Amazon Managed Grafana. Les tableaux de bord sont optimisés spécifiquement pour le développement d’un modèle de fondation avec une couverture approfondie de l’état du matériel, de l’utilisation des ressources et des performances au niveau des tâches. Avec ce module complémentaire, vous pouvez consolider les données de santé et de performance provenant de NVIDIA DCGM, des exportateurs de nœuds Kubernetes au niveau de l'instance, de l'adaptateur Elastic Fabric, des systèmes de fichiers intégrés, de Kubernetes, de APIs Kueue et des opérateurs de tâches. SageMaker HyperPod 

**Amazon CloudWatch Insights** —Amazon CloudWatch Insights collecte des métriques relatives aux ressources de calcul, telles que le processeur, la mémoire, le disque et le réseau. Conteneur Insights fournit également des informations de diagnostic (par exemple sur les échecs de redémarrage des conteneurs) pour vous aider à isoler les problèmes et à les résoudre rapidement. Vous pouvez également définir des CloudWatch alarmes sur les métriques collectées par Container Insights.

**Topics**
+ [SageMaker HyperPod Observabilité d'Amazon avec Amazon Managed Grafana et Amazon Managed Service pour Prometheus](sagemaker-hyperpod-observability-addon.md)
+ [Observabilité avec Amazon CloudWatch](sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci.md)