Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
CloudWatch solution : charge de travail du GPU NVIDIA sur Amazon EC2
Cette solution vous permet de configurer la collecte de out-of-the-box métriques à l'aide d' CloudWatch agents pour les charges de travail GPU NVIDIA exécutées sur des EC2 instances. En outre, il vous aide à configurer un tableau de CloudWatch bord préconfiguré. Pour des informations générales sur toutes les solutions CloudWatch d'observabilité, consultezCloudWatch solutions d'observabilité.
Rubriques
Prérequis
Cette solution est pertinente pour les conditions suivantes :
-
Calcul : Amazon EC2
-
Supporte jusqu'à 500 GPUs dans toutes les EC2 instances d'une même instance Région AWS
-
Dernière version de l' CloudWatch agent
-
Agent SSM installé sur l'instance EC2
-
Un pilote NVIDIA doit être installé sur l' EC2 instance. Les pilotes NVIDIA sont préinstallés sur certaines Amazon Machine Images (AMIs). Sinon, vous pouvez installer le pilote manuellement. Pour plus d'informations, consultez Installer les pilotes NVIDIA sur des instances Linux.
Note
AWS Systems Manager (agent SSM) est préinstallé sur certaines Amazon Machine Images (AMIs) fournies par des tiers AWS de confiance. Si l’agent n’est pas installé, vous pouvez l’installer manuellement à l’aide de la procédure correspondant à votre type de système d’exploitation.
Avantages
La solution assure la surveillance de NVIDIA et fournit des informations précieuses pour les cas d’utilisation suivants :
-
Analyser l’utilisation du GPU et de la mémoire pour détecter les goulots d’étranglement ou le besoin de ressources supplémentaires.
-
Surveillez la température et la consommation électrique pour garantir un GPUs fonctionnement dans les limites de sécurité.
-
Évaluer les performances de l’encodeur pour les charges de travail vidéo du GPU.
-
Vérifiez la PCIe connectivité en fonction de la génération et de la largeur attendues.
-
Surveiller les vitesses d’horloge des GPU pour détecter les problèmes de mise à l’échelle et de limitation.
Vous trouverez ci-dessous les principaux avantages de la solution :
-
Automatise la collecte des métriques pour NVIDIA à l'aide de la configuration de l' CloudWatch agent, éliminant ainsi l'instrumentation manuelle.
-
Fournit un tableau de CloudWatch bord consolidé préconfiguré pour les métriques NVIDIA. Le tableau de bord gérera automatiquement les métriques des nouvelles EC2 instances NVIDIA configurées à l'aide de la solution, même si ces métriques n'existent pas lorsque vous créez le tableau de bord pour la première fois.
L’image suivante est un exemple de tableau de bord pour cette solution.
Coûts
Cette solution crée et utilise des ressources dans votre compte. Les coûts d’utilisation standard vous sont facturés, y compris les éléments suivants :
-
Toutes les mesures collectées par l' CloudWatch agent sont facturées en tant que mesures personnalisées. Le nombre de métriques utilisées par cette solution dépend du nombre d' EC2 hôtes.
-
Chaque EC2 hôte configuré pour la solution publie un total de 17 métriques par GPU.
-
-
Un tableau de bord personnalisé.
-
Opérations d'API demandées par l' CloudWatch agent pour publier les métriques. Avec la configuration par défaut de cette solution, l' CloudWatch agent appelle PutMetricDataune fois par minute pour chaque EC2 hôte. Cela signifie que l'PutMetricDataAPI sera appelée
30*24*60=43,200dans un délai de 30 jours par mois pour chaque EC2 hôte.
Pour plus d'informations sur CloudWatch les tarifs, consultez Amazon CloudWatch Pricing
Le calculateur de prix peut vous aider à estimer les coûts mensuels approximatifs de l’utilisation de cette solution.
Pour utiliser le calculateur de prix afin d’estimer les coûts mensuels de votre solution
-
Ouvrez le calculateur CloudWatch de prix Amazon
. -
Dans la section Choisir une région, sélectionnez la région dans laquelle vous souhaitez déployer la solution.
-
Dans la section Métriques, pour Nombre de métriques, entrez
17 * average number of GPUs per EC2 host * number of EC2 instances configured for this solution. -
Dans la APIssection, pour Nombre de demandes d'API, entrez
43200 * number of EC2 instances configured for this solution. -
Par défaut, l' CloudWatch agent effectue une PutMetricDataopération par minute pour chaque EC2 hôte.
-
Dans la section Tableaux de bord et alarmes, pour Nombre de tableaux de bord, entrez
1. -
Vous pouvez voir vos coûts mensuels estimés en bas du calculateur de prix.
CloudWatch configuration de l'agent pour cette solution
L' CloudWatch agent est un logiciel qui s'exécute de manière continue et autonome sur vos serveurs et dans des environnements conteneurisés. Il collecte des métriques, des journaux et des traces à partir de votre infrastructure et de vos applications et les envoie à CloudWatch X-Ray.
Pour plus d'informations sur l' CloudWatch agent, consultezCollectez des métriques, des journaux et des traces à l'aide de l' CloudWatchagent.
La configuration de l’agent dans cette solution collecte un ensemble de métriques pour vous aider à démarrer la surveillance et l’observation de votre GPU NVIDIA. L' CloudWatch agent peut être configuré pour collecter plus de métriques du GPU NVIDIA que ce que le tableau de bord affiche par défaut. Pour obtenir une liste de toutes les métriques du GPU NVIDIA que vous pouvez collecter, consultez Collecter des métriques GPU NVIDIA .
Configuration de l’agent pour cette solution
Les métriques collectées par l’agent sont définies dans la configuration de l’agent. La solution fournit des configurations d’agent pour collecter les métriques recommandées avec des dimensions appropriées pour le tableau de bord de la solution.
Utilisez la configuration d' CloudWatch agent suivante sur EC2 les instances avec NVIDIA GPUs. La configuration sera stockée en tant que paramètre dans le magasin de paramètres de SSM, comme détaillé plus loin dans Étape 2 : enregistrer le fichier de configuration d' CloudWatch agent recommandé dans le magasin de paramètres de Systems Manager.
{ "metrics": { "namespace": "CWAgent", "append_dimensions": { "InstanceId": "${aws:InstanceId}" }, "metrics_collected": { "nvidia_gpu": { "measurement": [ "utilization_gpu", "temperature_gpu", "power_draw", "utilization_memory", "fan_speed", "memory_total", "memory_used", "memory_free", "pcie_link_gen_current", "pcie_link_width_current", "encoder_stats_session_count", "encoder_stats_average_fps", "encoder_stats_average_latency", "clocks_current_graphics", "clocks_current_sm", "clocks_current_memory", "clocks_current_video" ], "metrics_collection_interval": 60 } } }, "force_flush_interval": 60 }
Déployer l’agent pour votre solution
Il existe plusieurs approches pour installer l' CloudWatch agent, selon le cas d'utilisation. Nous vous recommandons d’utiliser Systems Manager pour cette solution. Il fournit une expérience de console et simplifie la gestion d'un parc de serveurs gérés au sein d'un seul AWS compte. Les instructions de cette section utilisent Systems Manager et sont destinées aux situations où l' CloudWatch agent n'est pas exécuté avec des configurations existantes. Vous pouvez vérifier si l' CloudWatch agent est en cours d'exécution en suivant les étapes décrites dansVérifiez que l' CloudWatch agent est en cours d'exécution.
Si vous exécutez déjà l' CloudWatch agent sur les EC2 hôtes sur lesquels la charge de travail est déployée et que vous gérez les configurations de l'agent, vous pouvez ignorer les instructions de cette section et suivre votre mécanisme de déploiement existant pour mettre à jour la configuration. Veillez à fusionner la configuration de l’agent de GPU NVIDIA avec votre configuration d’agent existante, puis déployez la configuration fusionnée. Si vous utilisez Systems Manager pour stocker et gérer la configuration de l' CloudWatch agent, vous pouvez fusionner la configuration avec la valeur de paramètre existante. Pour plus d'informations, consultez la section Gestion des fichiers de configuration des CloudWatch agents.
Note
L'utilisation de Systems Manager pour déployer les configurations d' CloudWatch agent suivantes remplacera ou remplacera toute configuration d' CloudWatch agent existante sur vos EC2 instances. Vous pouvez modifier cette configuration pour l’adapter à votre environnement unique ou à votre cas d’utilisation. Les métriques définies dans la configuration sont le minimum requis pour le tableau de bord fourni la solution.
Le processus de déploiement comprend les étapes suivantes :
-
Étape 1 : Assurez-vous que les EC2 instances cibles disposent des autorisations IAM requises.
-
Étape 2 : stockez le fichier de configuration de l’agent recommandé dans le magasin de paramètres de Systems Manager.
-
Étape 3 : installez l' CloudWatch agent sur une ou plusieurs EC2 instances à l'aide d'une CloudFormation pile.
-
Étape 4 : vérifiez que l’installation de l’agent est configurée correctement.
Étape 1 : Assurez-vous que les EC2 instances cibles disposent des autorisations IAM requises
Vous devez autoriser Systems Manager à installer et configurer l' CloudWatch agent. Vous devez également autoriser l' CloudWatch agent à publier des données télémétriques depuis votre EC2 instance vers. CloudWatch Assurez-vous que le rôle IAM associé à l'instance est associé aux politiques Amazon SSMManaged InstanceCore IAM CloudWatchAgentServerPolicyet Amazon.
-
Une fois le rôle créé, attachez-le à vos EC2 instances. Pour associer un rôle à une EC2 instance, suivez les étapes décrites dans Attacher un rôle IAM à une instance.
Étape 2 : enregistrer le fichier de configuration d' CloudWatch agent recommandé dans le magasin de paramètres de Systems Manager
Parameter Store simplifie l'installation de l' CloudWatch agent sur une EC2 instance en stockant et en gérant de manière sécurisée les paramètres de configuration, éliminant ainsi le besoin de valeurs codées en dur. Cela garantit un processus de déploiement plus sûr et plus flexible, permettant une gestion centralisée et des mises à jour plus faciles des configurations sur plusieurs instances.
Procédez comme suit pour enregistrer le fichier de configuration d' CloudWatch agent recommandé en tant que paramètre dans Parameter Store.
Pour créer le fichier de configuration de CloudWatch l'agent en tant que paramètre
Ouvrez la AWS Systems Manager console à l'adresse https://console.aws.amazon.com/systems-manager/
. -
Vérifiez que la région sélectionnée dans la console est celle où la charge de travail du GPU NVIDIA s’exécute.
-
Dans le volet de navigation, sélectionnez Gestion des applications, Magasin de paramètres.
-
Suivez ces étapes pour créer un nouveau paramètre pour la configuration.
-
Sélectionnez Create parameter (Créer un paramètre).
-
Dans le champ Nom, entrez un nom que vous utiliserez pour référencer le fichier de configuration de l' CloudWatch agent lors des étapes ultérieures. Par exemple,
AmazonCloudWatch-NVIDIA-GPU-Configuration. -
(Facultatif) Dans la zone Description, saisissez une description pour le paramètre.
-
Pour Niveau de paramètre, choisissez Standard.
-
Pour Type, choisissez String (Chaîne).
-
Pour Type de données, choisissez texte.
-
Dans la case Valeur, collez le bloc JSON correspondant qui a été répertorié dans Configuration de l’agent pour cette solution.
-
Sélectionnez Create parameter (Créer un paramètre).
-
Étape 3 : Installation de l' CloudWatch agent et application de la configuration à l'aide d'un CloudFormation modèle
Vous pouvez l'utiliser AWS CloudFormation pour installer l'agent et le configurer de manière à utiliser la configuration d' CloudWatch agent que vous avez créée lors des étapes précédentes.
Pour installer et configurer l' CloudWatch agent pour cette solution
-
Ouvrez l'assistant de création CloudFormation rapide d'une pile en utilisant ce lien : https://console.aws.amazon.com/cloudformation/accueil ? #/ stacks/quickcreate?templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/CloudWatchAgent/CFN/v1.0.0/cw - agent-installation-template -1.0.0.json
. -
Vérifiez que la région sélectionnée dans la console est celle où la charge de travail du GPU NVIDIA s’exécute.
-
Pour Nom de la pile, entrez un nom pour identifier cette pile, par exemple
CWAgentInstallationStack. -
Dans la section Paramètres, indiquez les éléments suivants :
-
Pour CloudWatchAgentConfigSSM, entrez le nom du paramètre Systems Manager pour la configuration de l'agent que vous avez créée précédemment, par exemple
AmazonCloudWatch-NVIDIA-GPU-Configuration. -
Pour sélectionner les instances cibles, vous avez deux options.
-
Pour InstanceIds, spécifiez une liste séparée par IDs des virgules d'instances IDs où vous souhaitez installer l' CloudWatch agent avec cette configuration. Vous pouvez répertorier une seule instance ou plusieurs instances.
-
Si vous déployez à grande échelle, vous pouvez spécifier le TagKeyet le correspondant TagValuepour cibler toutes les EC2 instances avec cette balise et cette valeur. Si vous spécifiez un TagKey, vous devez spécifier un correspondant TagValue. (Pour un groupe Auto Scaling, spécifiez
aws:autoscaling:groupNamele TagKeyet spécifiez le nom du groupe Auto Scaling TagValueà déployer sur toutes les instances du groupe Auto Scaling.)
-
-
-
Examinez les paramètres, puis choisissez Créer la pile.
Si vous voulez d’abord modifier le fichier modèle pour le personnaliser, choisissez l’option Charger un fichier modèle sous Assistant de création de pile pour charger le modèle modifié. Pour plus d'informations, consultez Création d'une pile sur CloudFormation console.
Note
Une fois cette étape terminée, ce paramètre Systems Manager sera associé aux CloudWatch agents exécutés dans les instances ciblées. Cela signifie que :
-
Si le paramètre Systems Manager est supprimé, l’agent s’arrêtera.
-
Si le paramètre Systems Manager est modifié, les modifications de configuration s’appliqueront automatiquement à l’agent à la fréquence planifiée qui est de 30 jours par défaut.
-
Si vous voulez appliquer immédiatement les modifications apportées à ce paramètre Systems Manager, vous devez exécuter à nouveau cette étape. Pour plus d’informations sur les associations, consultez Travailler avec des associations dans Systems Manager.
Étape 4 : vérifiez que la configuration de l’agent est correcte
Vous pouvez vérifier si l' CloudWatch agent est installé en suivant les étapes décrites dansVérifiez que l' CloudWatch agent est en cours d'exécution. Si l' CloudWatch agent n'est pas installé et n'est pas en cours d'exécution, assurez-vous que tout est correctement configuré.
-
Assurez-vous d'avoir attaché un rôle avec les autorisations appropriées pour l' EC2 instance, comme décrit dansÉtape 1 : Assurez-vous que les EC2 instances cibles disposent des autorisations IAM requises.
-
Assurez-vous d’avoir correctement configuré le fichier JSON pour le paramètre Systems Manager. Suivez les étapes de Résolution des problèmes liés à l'installation de CloudWatch l'agent avec CloudFormation.
Si tout est correctement configuré, vous devriez voir les métriques du GPU NVIDIA publiées sur CloudWatch. Vous pouvez consulter la CloudWatch console pour vérifier qu'ils sont publiés.
Pour vérifier que les métriques du GPU NVIDIA sont publiées sur CloudWatch
Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/
. -
Choisissez Métriques, Toutes les métriques.
-
Assurez-vous d'avoir sélectionné la région dans laquelle vous avez déployé la solution, puis choisissez Espaces de noms personnalisés. CWAgent
-
Recherchez les métriques mentionnées dans Configuration de l’agent pour cette solution, par exemple
nvidia_smi_utilization_gpu. Si vous obtenez des résultats pour ces mesures, celles-ci sont publiées sur CloudWatch.
Créer le tableau de bord de la solution de GPU NVIDIA
Le tableau de bord fourni par cette solution présente les GPUs métriques NVIDIA en les agrégeant et en les présentant pour toutes les instances. Le tableau de bord présente une répartition des principaux contributeurs (les 10 premiers par widget de métrique) pour chaque métrique. Cela vous aide à identifier rapidement les valeurs aberrantes ou les instances qui contribuent de manière significative aux métriques observées.
Pour créer le tableau de bord, vous pouvez utiliser les options suivantes :
Utilisez CloudWatch la console pour créer le tableau de bord.
Utilisez AWS CloudFormation la console pour déployer le tableau de bord.
Téléchargez l' AWS CloudFormation infrastructure sous forme de code et intégrez-la dans le cadre de votre automatisation d'intégration continue (CI).
En utilisant la CloudWatch console pour créer un tableau de bord, vous pouvez prévisualiser le tableau de bord avant de le créer et de le débiter.
Note
Le tableau de bord créé avec CloudFormation cette solution affiche les statistiques de la région dans laquelle la solution est déployée. Assurez-vous de créer la CloudFormation pile dans la région où les métriques de votre GPU NVIDIA sont publiées.
Si vous avez spécifié un espace de noms personnalisé autre que CWAgent dans la configuration de l' CloudWatch agent, vous devrez modifier le CloudFormation modèle du tableau de bord pour le CWAgent remplacer par l'espace de noms personnalisé que vous utilisez.
Pour créer le tableau de bord via CloudWatch la console
-
Ouvrez la CloudWatch console Create Dashboard en utilisant ce lien : https://console.aws.amazon.com/cloudwatch/home ? #dashboards ? Modèle de tableau de bord = 2&referrer=os-catalog. NvidiaGpuOnEc
-
Vérifiez que la région sélectionnée dans la console est celle où la charge de travail du GPU NVIDIA s’exécute.
-
Saisissez le nom du tableau de bord, puis choisissez Créer le tableau de bord.
Pour différencier facilement ce tableau de bord de tableaux de bord similaires dans d’autres régions, nous vous recommandons d’inclure le nom de la région dans le nom du tableau de bord, par exemple
NVIDIA-GPU-Dashboard-us-east-1. -
Prévisualisez le tableau de bord et cliquez sur Enregistrer pour créer le tableau de bord.
Pour créer le tableau de bord via CloudFormation
-
Ouvrez l'assistant de création CloudFormation rapide d'une pile en utilisant ce lien : https://console.aws.amazon.com/cloudformation/accueil ? #/ stacks/quickcreate?templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard -template-1.0.0.json
. -
Vérifiez que la région sélectionnée dans la console est celle où la charge de travail du GPU NVIDIA s’exécute.
-
Pour Nom de la pile, entrez un nom pour identifier cette pile, par exemple
NVIDIA-GPU-DashboardStack. -
Dans la section Paramètres, spécifiez le nom du tableau de bord sous le DashboardNameparamètre.
-
Pour différencier facilement ce tableau de bord de tableaux de bord similaires dans d’autres régions, nous vous recommandons d’inclure le nom de la région dans le nom du tableau de bord, par exemple
NVIDIA-GPU-Dashboard-us-east-1. -
Validez les capacités d’accès pour les transformateurs sous Capacités et transformateurs. Notez que CloudFormation cela n'ajoute aucune ressource IAM.
-
Examinez les paramètres, puis choisissez Créer la pile.
-
Une fois que le statut de la pile est CREATE_COMPLETE, sélectionnez l’onglet Ressources sous la pile créée, puis cliquez sur le lien sous ID physique pour accéder au tableau de bord. Vous pouvez également accéder au tableau de bord dans la CloudWatch console en choisissant Tableaux de bord dans le volet de navigation gauche de la console et en recherchant le nom du tableau de bord sous Tableaux de bord personnalisés.
Si vous voulez modifier le fichier modèle pour l’adapter à vos besoins, vous pouvez utiliser l’option Charger un fichier modèle sous Assistant de création de pile pour charger le modèle modifié. Pour plus d’informations, consultez Création d’une pile sur la console CloudFormation. Vous pouvez utiliser ce lien pour télécharger le modèle : https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard-template-1.0.0.json
Démarrer avec le tableau de bord du GPU NVIDIA
Voici quelques tâches que vous pouvez essayer avec le nouveau tableau de bord du GPU NVIDIA. Ces tâches vous permettent de vérifier que le tableau de bord fonctionne correctement et de vous fournir une expérience pratique de son utilisation pour surveiller votre NVIDIA GPUs. Au fur et à mesure de vos essais, vous vous familiariserez avec la navigation dans le tableau de bord et l’interprétation des métriques visualisées.
Examiner l’utilisation du GPU
Dans la section Utilisation, trouvez les widgets Utilisation du GPU et Utilisation de la mémoire. Ils indiquent le pourcentage de temps pendant lequel le GPU est activement utilisé pour les calculs et le pourcentage de mémoire globale en cours de lecture ou d’écriture, respectivement. Une utilisation élevée peut indiquer des goulets d’étranglement potentiels au niveau des performances ou le besoin de ressources GPU supplémentaires.
Analyser l’utilisation de la mémoire du GPU
Dans la section Mémoire, vous trouverez les widgets Mémoire totale, Mémoire utilisée et Mémoire libre. Ils fournissent des informations sur la capacité de mémoire globale de la GPUs et sur la quantité de mémoire actuellement consommée ou disponible. La pression de la mémoire peut entraîner des problèmes de performances ou out-of-memory des erreurs. Il est donc important de surveiller ces indicateurs et de s'assurer que suffisamment de mémoire est disponible pour vos charges de travail.
Surveiller la température et la consommation d’énergie
Dans la section Température/Puissance, vous trouverez les widgets Température du GPU et Consommation d’énergie. Ces paramètres sont essentiels pour garantir que vous fonctionnez GPUs dans des limites thermiques et de puissance sûres.
Identifier les performances de l’encodeur
Dans la section Encodeur, vous trouverez les widgets Nombre de sessions d’encodage, FPS moyen et Latence moyenne. Ces statistiques sont pertinentes si vous exécutez des charges de travail d'encodage vidéo sur votre GPUs. Surveillez ces métriques pour vous assurer que vos encodeurs fonctionnent de manière optimale et pour identifier tout goulot d’étranglement potentiel ou problème de performance.
Vérifier l'état du PCIe lien
Dans la PCIesection, trouvez les widgets de génération de PCIe liens et de largeur de PCIe lien. Ces métriques fournissent des informations sur le PCIe lien reliant le GPU au système hôte. Assurez-vous que le lien fonctionne à la génération et à la largeur prévues afin d'éviter d'éventuelles limitations de performances dues à des PCIe goulots d'étranglement.
Examiner les horloges du GPU
Dans la section Horloge, vous trouverez les widgets Horloge graphique, Horloge SM, Horloge mémoire et Horloge vidéo. Ces métriques indiquent les fréquences de fonctionnement actuelles des différents composants du GPU. La surveillance de ces horloges peut aider à identifier les problèmes potentiels liés à la mise à l’échelle de l’horloge du GPU ou au limiteur de fréquence, qui pourraient avoir un impact sur les performances.