Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
SageMaker HyperPod Observabilité d'Amazon avec Amazon Managed Grafana et Amazon Managed Service pour Prometheus
Amazon SageMaker HyperPod (SageMaker HyperPod) fournit un tableau de out-of-the-box bord complet qui vous donne un aperçu des tâches de développement du modèle de base (FM) et des ressources du cluster. Cette solution d’observabilité unifiée publie automatiquement les métriques clés sur le service géré Amazon pour Prometheus et les affiche dans les tableaux de bord Amazon Managed Grafana. Les tableaux de bord sont optimisés spécifiquement pour le développement d’un modèle de fondation avec une couverture approfondie de l’état du matériel, de l’utilisation des ressources et des performances au niveau des tâches. Avec ce module complémentaire, vous pouvez consolider les données de santé et de performance provenant de NVIDIA DCGM, des exportateurs de nœuds Kubernetes au niveau de l'instance, de l'adaptateur Elastic Fabric, des systèmes de fichiers intégrés, de Kubernetes, de APIs Kueue et des opérateurs de tâches. SageMaker HyperPod
Support des groupes d'instances restreints (RIG)
Le module complémentaire d'observabilité prend également en charge les clusters contenant des groupes d'instances restreints. Dans les clusters RIG, le module complémentaire adapte automatiquement sa stratégie de déploiement pour se conformer à l'isolation du réseau et aux contraintes de sécurité des nœuds restreints. DaemonSet les composants (exportateur de nœuds, exportateur DCGM, exportateur EFA, moniteur Neuron et collecteur de nœuds) s'exécutent à la fois sur des nœuds standard et restreints. Les composants de déploiement (collecteur central, Kube State Metrics et Training Metrics Agent) sont planifiés selon une logique tenant compte des limites afin de respecter l'isolation du réseau entre les groupes d'instances. La collecte de journaux de conteneurs avec Fluent Bit n'est pas disponible sur les nœuds restreints.
Pour plus d'informations sur la configuration du module complémentaire sur des clusters dotés de groupes d'instances restreints, consultezConfiguration du module complémentaire d' SageMaker HyperPod observabilité.
Rubriques
Configuration du module complémentaire d' SageMaker HyperPod observabilité
Exploration des métriques SageMaker HyperPod du cluster dans Amazon Managed Grafana
Personnalisation des indicateurs, des tableaux de bord et des alertes du SageMaker HyperPod cluster
Création de métriques SageMaker HyperPod de cluster personnalisées
Résolution des problèmes liés au module complémentaire SageMaker HyperPod d'observabilité Amazon