Support des groupes d'instances restreints (RIG)

SageMaker HyperPod Observabilité d'Amazon avec Amazon Managed Grafana et Amazon Managed Service pour Prometheus

Amazon SageMaker HyperPod (SageMaker HyperPod) fournit un tableau de bord complet prêt à l'emploi qui vous donne un aperçu des tâches de développement du modèle de base (FM) et des ressources du cluster. Cette solution d’observabilité unifiée publie automatiquement les métriques clés sur le service géré Amazon pour Prometheus et les affiche dans les tableaux de bord Amazon Managed Grafana. Les tableaux de bord sont optimisés spécifiquement pour le développement d’un modèle de fondation avec une couverture approfondie de l’état du matériel, de l’utilisation des ressources et des performances au niveau des tâches. Avec ce module complémentaire, vous pouvez consolider les données de santé et de performance provenant de NVIDIA DCGM, des exportateurs de nœuds Kubernetes au niveau de l'instance, de l'adaptateur Elastic Fabric, des systèmes de fichiers intégrés, des API Kubernetes, de Kueue et des opérateurs de tâches. SageMaker HyperPod

Support des groupes d'instances restreints (RIG)

Le module complémentaire d'observabilité prend également en charge les clusters contenant des groupes d'instances restreints. Dans les clusters RIG, le module complémentaire adapte automatiquement sa stratégie de déploiement pour se conformer à l'isolation du réseau et aux contraintes de sécurité des nœuds restreints. DaemonSet les composants (exportateur de nœuds, exportateur DCGM, exportateur EFA, moniteur Neuron et collecteur de nœuds) s'exécutent à la fois sur des nœuds standard et restreints. Les composants de déploiement (collecteur central, Kube State Metrics et Training Metrics Agent) sont planifiés selon une logique tenant compte des limites afin de respecter l'isolation du réseau entre les groupes d'instances. La collecte de journaux de conteneurs avec Fluent Bit n'est pas disponible sur les nœuds restreints.

Pour plus d'informations sur la configuration du module complémentaire sur des clusters dotés de groupes d'instances restreints, consultezConfiguration du module complémentaire d' SageMaker HyperPod observabilité.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Observabilité des clusters et des tâches

Configuration