View a markdown version of this page

SageMaker HyperPod Observabilité d'Amazon avec Amazon Managed Grafana et Amazon Managed Service pour Prometheus - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SageMaker HyperPod Observabilité d'Amazon avec Amazon Managed Grafana et Amazon Managed Service pour Prometheus

Amazon SageMaker HyperPod (SageMaker HyperPod) fournit un tableau de out-of-the-box bord complet qui vous donne un aperçu des tâches de développement du modèle de base (FM) et des ressources du cluster. Cette solution d’observabilité unifiée publie automatiquement les métriques clés sur le service géré Amazon pour Prometheus et les affiche dans les tableaux de bord Amazon Managed Grafana. Les tableaux de bord sont optimisés spécifiquement pour le développement d’un modèle de fondation avec une couverture approfondie de l’état du matériel, de l’utilisation des ressources et des performances au niveau des tâches. Avec ce module complémentaire, vous pouvez consolider les données de santé et de performance provenant de NVIDIA DCGM, des exportateurs de nœuds Kubernetes au niveau de l'instance, de l'adaptateur Elastic Fabric, des systèmes de fichiers intégrés, de Kubernetes, de APIs Kueue et des opérateurs de tâches. SageMaker HyperPod

Support des groupes d'instances restreints (RIG)

Le module complémentaire d'observabilité prend également en charge les clusters contenant des groupes d'instances restreints. Dans les clusters RIG, le module complémentaire adapte automatiquement sa stratégie de déploiement pour se conformer à l'isolation du réseau et aux contraintes de sécurité des nœuds restreints. DaemonSet les composants (exportateur de nœuds, exportateur DCGM, exportateur EFA, moniteur Neuron et collecteur de nœuds) s'exécutent à la fois sur des nœuds standard et restreints. Les composants de déploiement (collecteur central, Kube State Metrics et Training Metrics Agent) sont planifiés selon une logique tenant compte des limites afin de respecter l'isolation du réseau entre les groupes d'instances. La collecte de journaux de conteneurs avec Fluent Bit n'est pas disponible sur les nœuds restreints.

Pour plus d'informations sur la configuration du module complémentaire sur des clusters dotés de groupes d'instances restreints, consultezConfiguration du module complémentaire d' SageMaker HyperPod observabilité.