Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Tableaux de bord SageMaker HyperPod d'observabilité Amazon
Cette rubrique explique comment consulter les tableaux de bord de métriques pour vos clusters Amazon SageMaker HyperPod (SageMaker HyperPod) et comment ajouter de nouveaux utilisateurs à un tableau de bord. La rubrique décrit également les différents types de tableaux de bord.
Accès aux tableaux de bord
Pour consulter les statistiques de votre SageMaker HyperPod cluster dans Amazon Managed Grafana, effectuez les étapes suivantes :
Ouvrez la console Amazon SageMaker AI à l'adresse https://console.aws.amazon.com/sagemaker/
. -
Accédez à la page de détails de votre cluster.
-
Dans l'onglet Tableau de bord, recherchez la section HyperPod Observabilité et choisissez Ouvrir le tableau de bord dans Grafana.
Ajout de nouveaux utilisateurs dans un espace de travail Amazon Managed Grafana
Pour en savoir plus sur la façon d’ajouter des utilisateurs dans un espace de travail Amazon Managed Grafana, consultez Utilisation d’AWS IAM Identity Center avec votre espace de travail Amazon Managed Grafana dans le Guide de l’utilisateur Amazon Managed Grafana.
Tableaux de bord d’observabilité
Le module complémentaire SageMaker HyperPod d'observabilité fournit cinq tableaux de bord interconnectés dans votre espace de travail Amazon Managed Grafana par défaut. Chaque tableau de bord fournit des informations détaillées sur les différentes ressources et tâches des clusters pour différents utilisateurs tels que les scientifiques des données, les ingénieurs de machine learning et les administrateurs.
Tableau de bord des tâches
Le tableau de bord des tâches fournit une surveillance et une visualisation complètes des mesures d'utilisation des ressources pour les SageMaker HyperPod tâches. Le panneau principal affiche un tableau détaillé regroupant l’utilisation des ressources par les tâches parents, indiquant l’utilisation des CPU, des GPU et de la mémoire sur l’ensemble des pods. Des graphiques de séries temporelles interactifs suivent l’utilisation des CPU, la consommation de la mémoire système, les pourcentages d’utilisation des GPU et l’utilisation de la mémoire GPU des pods sélectionnés, vous permettant ainsi de surveiller les tendances des performances au fil du temps. Le tableau de bord propose de puissantes fonctionnalités de filtrage grâce à des variables telles que le nom du cluster, l’espace de noms, le type de tâche et des pods spécifiques, ce qui facilite l’exploration en détail de charges de travail spécifiques. Cette solution de surveillance est essentielle pour optimiser l'allocation des ressources et maintenir les performances des charges de travail de machine learning. SageMaker HyperPod
Tableau de bord d’entraînement
Le tableau de bord d’entraînement fournit une surveillance complète des métriques d’état, de fiabilité et de gestion des défaillances des tâches d’entraînement. Le tableau de bord présente des indicateurs de performance clés, notamment le nombre de tâches créées, les taux de réussite et les pourcentages de durée de fonctionnement, ainsi qu’un suivi détaillé des événements de redémarrage automatique et manuel. Il propose des visualisations détaillées des modèles de défaillances au moyen de diagrammes circulaires et de cartes thermiques qui décomposent les incidents par type et par latence de résolution, vous permettant ainsi d’identifier les problèmes récurrents et d’optimiser la fiabilité des tâches. L’interface inclut la surveillance en temps réel de métriques critiques telles que les temps de récupération du système et les latences de détection des défaillances, ce qui en fait un outil essentiel pour maintenir la haute disponibilité des charges de travail d’entraînement. En outre, la fenêtre de suivi de 24 heures du tableau de bord fournit un contexte historique permettant d’analyser les tendances et les modèles de performance des tâches d’entraînement, aidant ainsi les équipes à résoudre de manière proactive les problèmes potentiels avant qu’ils n’affectent les charges de travail de production.
Tableau de bord d’inférence
Le tableau de bord d’inférence fournit une surveillance complète des métriques d’état et de performances de déploiement des modèles sur plusieurs dimensions. Il présente un aperçu détaillé des déploiements actifs, une surveillance en temps réel des taux de demandes, des pourcentages de réussite et des métriques de latence, ce qui vous permet de suivre les performances de service des modèles et d’identifier les goulots d’étranglement potentiels. Ce tableau de bord comprend des panneaux spécialisés pour les métriques d’inférence générales et les métriques spécifiques aux jetons pour les modèles de langage, telles que le délai jusqu’au premier jeton (TTFT) et le débit des jetons, ce qui le rend particulièrement utile pour la surveillance de déploiements de grands modèles de langage. En outre, il fournit des informations sur l’infrastructure grâce au suivi de l’allocation des pods et des nœuds, tout en offrant des fonctionnalités d’analyse détaillée des erreurs pour aider à maintenir la haute disponibilité et les performances des charges de travail d’inférence.
Tableau de bord du cluster
Le tableau de bord du cluster fournit une vue complète de l'état et des performances du cluster, offrant une visibilité en temps réel sur les ressources de calcul, de mémoire, de réseau et de stockage dans votre environnement Amazon SageMaker HyperPod (SageMaker HyperPod). En un coup d’œil, vous pouvez visualiser des métriques critiques telles que le nombre total d’instances, l’utilisation GPU, l’utilisation de la mémoire et les performances du réseau via une interface intuitive qui met automatiquement à jour les données à une fréquence de quelques secondes. Ce tableau de bord est organisé en sections logiques, en commençant par un aperçu de haut niveau du cluster qui affiche des métriques clés, telles que le pourcentage d’instances saines et le nombre total de ressources, suivies de sections détaillées pour les métriques de performances GPU, d’utilisation de la mémoire, de statistiques réseau et de stockage. Chaque section présente des graphiques et des panneaux interactifs qui vous permettent d’explorer en détail des métriques spécifiques, avec des plages de temps personnalisables et des options de filtrage par nom de cluster, instance ou ID de GPU.
Tableau de bord du système de fichiers
Le tableau de bord du système de fichiers fournit une visibilité complète sur les performances et les indicateurs de santé du système de fichiers (Amazon FSx for Lustre). Le tableau de bord affiche les indicateurs de stockage essentiels, notamment la capacité disponible, les économies réalisées grâce à la déduplication, le taux d' CPU/memory utilisation, les IOPS du disque, le débit et les connexions client sur plusieurs visualisations. Il vous permet de surveiller à la fois les indicateurs de performance au niveau du système, tels que l'utilisation du processeur et de la mémoire, ainsi que les mesures spécifiques au stockage, telles que les read/write opérations et les modèles d'utilisation du disque. L’interface inclut des fonctionnalités de surveillance des alertes et des graphiques de séries temporelles détaillés pour suivre les tendances des performances au fil du temps, ce qui la rend précieuse pour la maintenance proactive et la planification des capacités. En outre, grâce à sa couverture complète des indicateurs, le tableau de bord permet d'identifier les goulots d'étranglement potentiels, d'optimiser les performances de stockage et de garantir le fonctionnement fiable du système de fichiers pour les charges de travail. SageMaker HyperPod
Tableau de bord des partitions GPU
Pour surveiller les métriques spécifiques à une partition GPU lors de l'utilisation de configurations GPU multi-instances (MIG), vous devez installer ou effectuer une mise à niveau vers la dernière version de l'addon Observability. SageMaker HyperPod Cet addon fournit des fonctionnalités de surveillance complètes, y compris des mesures spécifiques à MiG telles que le nombre de partitions, l'utilisation de la mémoire et l'utilisation du calcul par partition GPU.
Si SageMaker HyperPod Observability est déjà installé mais que vous avez besoin du support des métriques MIG, il vous suffit de mettre à jour l'addon vers la dernière version. Ce processus ne perturbe pas et maintient votre configuration de surveillance existante.
SageMaker HyperPod expose automatiquement les métriques spécifiques au MIG, notamment :
-
nvidia_mig_instance_count: nombre d'instances MIG par profil -
nvidia_mig_memory_usage: utilisation de la mémoire par instance MIG -
nvidia_mig_compute_utilization: utilisation du calcul par instance MIG