Métriques des GPU NVIDIA AWSMétriques neuronales pour AWS Trainium et Inferentia AWS AWSMétriques de l'Elastic Fabric Adapter (EFA)Métriques Amazon SageMaker AI HyperPod Statistiques relatives aux NVMe conducteurs Amazon EBS

Amazon EKS et Kubernetes Container Insights avec des métriques d’observabilité améliorées

Les tableaux suivants répertorient les métriques et les dimensions que Container Insights avec observabilité améliorée collecte pour Amazon EKS et Kubernetes. Ces métriques sont dans l'espace de noms ContainerInsights. Pour de plus amples informations, veuillez consulter Métriques.

Si vous ne voyez aucune métrique Container Insights avec observabilité améliorée dans votre console, assurez-vous que vous avez terminé la configuration de Container Insights avec observabilité améliorée. Les métriques n’apparaissent pas avant la configuration complète de Container Insights avec observabilité améliorée. Pour de plus amples informations, veuillez consulter Configuration de Container Insights.

Si vous utilisez la version 1.5.0 ou ultérieure du module complémentaire Amazon EKS ou la version 1.300035.0 de l' CloudWatch agent, la plupart des métriques répertoriées dans le tableau suivant sont collectées pour les nœuds Linux et Windows. Consultez la colonne Nom de la métrique du tableau pour savoir quelles métriques ne sont pas collectées pour Windows.

Avec la version antérieure de Container Insights qui fournit des métriques agrégées au niveau du cluster et du service, les métriques sont chargées en tant que métriques personnalisées. Grâce à Container Insights avec observabilité améliorée pour Amazon EKS, les métriques de Container Insights sont facturées par observation au lieu d'être facturées par métrique stockée ou par journal ingéré. Pour plus d'informations sur CloudWatch les tarifs, consultez Amazon CloudWatch Pricing.

Note

Sur Windows, les métriques réseau telles que pod_network_rx_bytes et pod_network_tx_bytes ne sont pas collectées pour les conteneurs de processus hôte.

RedHat OpenShift Sur les clusters on AWS (ROSA), les métriques Diskio telles que node_diskio_io_serviced_total et ne node_diskio_io_service_bytes_total sont pas collectées.

Nom de la métrique	Dimensions	Description
`cluster_failed_node_count`	`ClusterName`	Nombre d'échecs des nœuds de travail dans le cluster. Un nœud est considéré comme ayant échoué s'il souffre de conditions de nœud. Pour plus d'informations, consultez Conditions dans la documentation Kubernetes.
`cluster_node_count`	`ClusterName`	Nombre total de composants master dans le cluster.
`namespace_number_of_running_pods`	`Namespace` `ClusterName` `ClusterName`	Nombre de pods exécutés par espace de nom dans la ressource spécifiée par les dimensions que vous utilisez.
`node_cpu_limit`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Nombre maximal d'unités UC qui peut être attribué à un seul nœud du cluster.
`node_cpu_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Pourcentage d'unités UC qui sont réservées pour les composants de nœud, tels que Kubelet, Kube-proxy et Docker. Formule : `node_cpu_request / node_cpu_limit` Note `node_cpu_request` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`node_cpu_usage_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Nombre d'unités UC en cours d'utilisation sur les nœuds du cluster.
`node_cpu_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Pourcentage total d'unités UC en cours d'utilisation sur les nœuds du cluster. Formule : `node_cpu_usage_total / node_cpu_limit`
`node_filesystem_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Pourcentage total d'une capacité de système de fichiers utilisée sur les nœuds du cluster. Formule : `node_filesystem_usage / node_filesystem_capacity` Note `node_filesystem_usage` et `node_filesystem_capacity` ne sont pas indiqués directement sous forme de métrique, mais constituent des champs dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`node_memory_limit`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Quantité de mémoire maximale, en octets, qui peut être attribuée à un seul nœud du cluster.
`node_filesystem_inodes` Ce n’est pas disponible sur Windows.	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre total d'inodes (utilisés et non utilisés) sur un nœud.
`node_filesystem_inodes_free` Ce n’est pas disponible sur Windows.	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre d'inodes non utilisés sur un nœud.
`node_gpu_limit`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre total de GPU disponibles sur le nœud.
`node_gpu_usage_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre de GPU en cours d’utilisation par les pods en cours d’exécution sur le nœud.
`node_gpu_reserved_capacity`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`
`node_memory_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Pourcentage de mémoire actuellement utilisé sur les nœuds du cluster. Formule : `node_memory_request / node_memory_limit` Note `node_memory_request` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`node_memory_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Pourcentage de mémoire actuellement utilisé par le ou les nœuds. Il s'agit du pourcentage d'utilisation de la mémoire du nœud divisé par la limitation de la mémoire du nœud. Formule : `node_memory_working_set / node_memory_limit`.
`node_memory_working_set`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Quantité de mémoire, en octets, utilisée dans l'ensemble de travail des nœuds du cluster.
`node_network_total_bytes`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Nombre total d'octets transmis et reçus par seconde sur le réseau par nœud dans un cluster. Formule : `node_network_rx_bytes + node_network_tx_bytes` Note `node_network_rx_bytes` et `node_network_tx_bytes` ne sont pas indiqués directement sous forme de métrique, mais constituent des champs dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`node_number_of_running_containers`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Nombre de conteneurs en cours d'exécution par nœud dans un cluster.
`node_number_of_running_pods`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Nombre de pods en cours d'exécution par nœud dans un cluster.
`node_status_allocatable_pods`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre de pods pouvant être affectés à un nœud en fonction de ses ressources allouables, défini comme le reste de la capacité d'un nœud après prise en compte des réserves de démons du système et des seuils d'expulsion stricts.
`node_status_capacity_pods`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre de pods qui peuvent être affectés à un nœud en fonction de sa capacité.
`node_status_condition_ready`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si la condition d'état du nœud `Ready` est vraie pour les EC2 nœuds Amazon.
`node_status_condition_memory_pressure`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si la condition d'état `MemoryPressure` du nœud est vraie.
`node_status_condition_pid_pressure`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si la condition d'état `PIDPressure` du nœud est vraie.
`node_status_condition_disk_pressure`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si la condition d'état `OutOfDisk` du nœud est vraie.
`node_status_condition_unknown`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si l'une des conditions d'état du nœud est inconnue.
`node_interface_network_rx_dropped`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre de paquets qui ont été reçus et ensuite abandonnés par une interface de réseau sur le nœud.
`node_interface_network_tx_dropped`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre de paquets qui devaient être transmis, mais qui ont été abandonnés par une interface réseau sur le nœud.
`node_diskio_io_service_bytes_total` Elle n’est pas disponible sur Windows ou sur les clusters ROSA.	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Nombre total d'octets transférés par toutes les I/O opérations sur le nœud.
`node_diskio_io_serviced_total` Elle n’est pas disponible sur Windows ou sur les clusters ROSA.	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Nombre total d' I/O opérations sur le nœud.
`pod_cpu_reserved_capacity`	`PodName`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `Service`	Capacité d'UC qui est réservée par pod dans un cluster. Formule : `pod_cpu_request / node_cpu_limit` Note `pod_cpu_request` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`pod_cpu_utilization`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pourcentage d'unités UC utilisées par les pods. Formule : `pod_cpu_usage_total / node_cpu_limit`
`pod_cpu_utilization_over_pod_limit`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pourcentage d'unités UC en cours d'utilisation par les pods par rapport à la limite des pods. Formule : `pod_cpu_usage_total / pod_cpu_limit`
`pod_memory_reserved_capacity`	`PodName`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `Service`	Pourcentage de mémoire réservé aux pods. Formule : `pod_memory_request / node_memory_limit` Note `pod_memory_request` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`pod_memory_utilization`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pourcentage de mémoire actuellement utilisé par le ou les pods. Formule : `pod_memory_working_set / node_memory_limit`
`pod_memory_utilization_over_pod_limit`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pourcentage de mémoire utilisé par les pods par rapport à la limite des pods. Si l'un des conteneurs dans le pod n'a pas de limite de mémoire définie, cette métrique n'apparaît pas. Formule : `pod_memory_working_set / pod_memory_limit`
`pod_network_rx_bytes`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Nombre d'octets reçus par seconde sur le réseau par le pod. Formule : `sum(pod_interface_network_rx_bytes)` Note `pod_interface_network_rx_bytes` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`pod_network_tx_bytes`	`PodName`, `Namespace`, `ClusterName` `Namespace,` `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Nombre d'octets transmis par seconde sur le réseau par le pod. Formule : `sum(pod_interface_network_tx_bytes)` Note `pod_interface_network_tx_bytes` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`pod_cpu_request`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Les requêtes de processeur du pod. Formule : `sum(container_cpu_request)` Note `pod_cpu_request` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`pod_memory_request`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Les requêtes de mémoire du pod. Formule : `sum(container_memory_request)` Note `pod_memory_request` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`pod_cpu_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	La limite de processeur définie pour les conteneurs du pod. Si l'un des conteneurs du pod n'a pas de limite de processeur définie, cette métrique n'apparaît pas. Formule : `sum(container_cpu_limit)` Note `pod_cpu_limit` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`pod_memory_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	La limite de mémoire définie pour les conteneurs du pod. Si l'un des conteneurs dans le pod n'a pas de limite de mémoire définie, cette métrique n'apparaît pas. Formule : `sum(container_memory_limit)` Note `pod_cpu_limit` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`pod_status_failed`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique que tous les conteneurs du pod sont résiliés et qu'au moins un conteneur s'est arrêté avec un statut différent de zéro ou a été résilié par le système.
`pod_status_ready`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique que tous les conteneurs du pod sont prêts, ayant atteint l'état `ContainerReady`.
`pod_status_running`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique que tous les conteneurs du pod sont en cours d'exécution.
`pod_status_scheduled`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique que le pod a été planifié sur un nœud.
`pod_status_unknown`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique que l'état du pod ne peut pas être obtenu.
`pod_status_pending`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique que le pod a été accepté par le cluster, mais qu'un ou plusieurs conteneurs ne sont pas encore prêts.
`pod_status_succeeded`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique que tous les conteneurs du pod ont été correctement résiliés et ne seront pas redémarrés.
`pod_number_of_containers`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs défini dans la spécification du pod.
`pod_number_of_running_containers`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs du pod qui sont actuellement dans l'état `Running`.
`pod_container_status_terminated`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs du pod qui sont dans l'état `Terminated`.
`pod_container_status_running`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs du pod qui sont dans l'état `Running`.
`pod_container_status_waiting`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs du pod qui sont dans l'état `Waiting`.
`pod_container_status_waiting_reason_crash_loop_back_off`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs dans le pod qui sont en attente en raison d’une erreur `CrashLoopBackOff`, lorsqu’un conteneur ne parvient pas à démarrer de manière répétée.
`pod_container_status_waiting_reason_create_container_config_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs dans le pod qui sont en attente avec la raison `CreateContainerConfigError`. Cela est dû à une erreur lors de la création de la configuration du conteneur.
`pod_container_status_waiting_reason_create_container_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs dans le pod qui sont en attente avec la raison `CreateContainerError` en raison d’une erreur lors de la création du conteneur.
`pod_container_status_waiting_reason_image_pull_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs dans le pod qui sont en attente en raison de `ErrImagePull`, `ImagePullBackOff`, ou `InvalidImageName`. Ces situations sont dues à une erreur lors de l’extraction de l’image du conteneur.
`pod_container_status_waiting_reason_oom_killed`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs du pod qui sont dans l’état `Terminated` à cause d’un manque de mémoire (OOM killed).
`pod_container_status_waiting_reason_start_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs dans le pod qui sont en attente avec la raison étant `StartError` à cause d’une erreur lors du démarrage du conteneur.
`pod_container_status_terminated_reason_oom_killed`	`ContainerName`, `FullPodName`, `PodName`, `Namespace`, `ClusterName` `ContainerName`, `PodName`, `Namespace`, `ClusterName` `ClusterName`	Indique qu’un pod a été résilié pour avoir dépassé la limite de mémoire. Cette métrique n’est affichée que lorsque ce problème survient.
`pod_interface_network_rx_dropped`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Le nombre de paquets qui ont été reçus et ensuite abandonnés par une interface réseau pour le pod.
`pod_interface_network_tx_dropped`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Le nombre de paquets qui devaient être transmis, mais qui ont été abandonnés pour le pod.
`pod_memory_working_set`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	La mémoire en octets actuellement utilisée par un pod.
`pod_cpu_usage_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Nombre d’unités UC utilisées par un pod.
`container_cpu_utilization`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	Pourcentage d'unités de processeur utilisées par le conteneur. Formule : `container_cpu_usage_total / node_cpu_limit` Note `container_cpu_utilization` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`container_cpu_utilization_over_container_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	Pourcentage d'unités de processeur en cours d'utilisation par le conteneur par rapport à la limite du conteneur. Si le conteneur n'a pas de limite de processeur définie, cette métrique n'apparaît pas. Formule : `container_cpu_usage_total / container_cpu_limit` Note `container_cpu_utilization_over_container_limit` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`container_memory_utilization`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	Le pourcentage d'unités de mémoire en cours d'utilisation par le conteneur. Formule : `container_memory_working_set / node_memory_limit` Note `container_memory_utilization` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`container_memory_utilization_over_container_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	Le pourcentage d'unités de mémoire en cours d'utilisation par le conteneur par rapport à la limite du conteneur. Si le conteneur n'a pas de limite de mémoire définie, cette métrique n'apparaît pas. Formule : `container_memory_working_set / container_memory_limit` Note `container_memory_utilization_over_container_limit` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.
`container_memory_failures_total` Ce n’est pas disponible sur Windows.	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	Le nombre d'échecs d'allocation de mémoire rencontrés par le conteneur.
`pod_number_of_container_restarts`	PodName, `Namespace`, `ClusterName`	Nombre total de redémarrages de conteneur dans un pod.
`service_number_of_running_pods`	Service, `Namespace`, `ClusterName` `ClusterName`	Nombre de blocs exécutant le ou les services du cluster.
`replicas_desired`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	Le nombre de pods souhaités pour une charge de travail, tel que défini dans la spécification de charge de travail.
`replicas_ready`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	Le nombre de pods pour une charge de travail qui ont atteint le statut prêt.
`status_replicas_available`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	Le nombre de pods disponibles pour une charge de travail. Un pod est disponible lorsqu'il est répond au critère `minReadySeconds` défini dans la spécification de charge de travail.
`status_replicas_unavailable`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	Le nombre de pods indisponibles pour une charge de travail. Un pod est disponible lorsqu'il est répond au critère `minReadySeconds` défini dans la spécification de charge de travail. Les pods ne sont pas disponibles s'ils ne répondent pas à ce critère.
`apiserver_storage_objects`	`ClusterName` `ClusterName`, `resource`	Le nombre d'objets stockés dans etcd au moment de la dernière vérification.
`apiserver_storage_db_total_size_in_bytes`	`ClusterName` `ClusterName`, `endpoint`	Taille totale du fichier de base de données de stockage physiquement alloué en octets. Cette métrique est expérimentale et pourrait changer dans les prochaines versions de Kubernetes. Unité : octets Statistiques significatives : Somme, Moyenne, Minimum, Maximum
`apiserver_request_total`	`ClusterName` `ClusterName`, `code`, `verb`	Le nombre total de demandes d'API adressées au serveur d'API Kubernetes.
`apiserver_request_duration_seconds`	`ClusterName` `ClusterName`, `verb`	Latence de réponse pour les demandes d'API adressées au serveur d'API Kubernetes.
`apiserver_admission_controller_admission_duration_seconds`	`ClusterName` `ClusterName`, `operation`	Latence du contrôleur d'admission en secondes. Un contrôleur d'admission est un code qui intercepte les requêtes adressées au serveur d'API Kubernetes.
`rest_client_request_duration_seconds`	`ClusterName` `ClusterName`, `operation`	Latence de réponse rencontrée par les clients qui appellent le serveur d'API Kubernetes. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.
`rest_client_requests_total`	`ClusterName` `ClusterName`, `code`, `method`	Le nombre total de demandes d'API adressées au serveur d'API Kubernetes par les clients. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.
`etcd_request_duration_seconds`	`ClusterName` `ClusterName`, `operation`	Latence de réponse des appels d'API à Etcd. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.
`apiserver_storage_size_bytes`	`ClusterName` `ClusterName`, `endpoint`	Taille du fichier de base de données de stockage physiquement alloué en octets. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.
`apiserver_longrunning_requests`	`ClusterName` `ClusterName`, `resource`	Le nombre de requêtes actives de longue durée adressées au serveur d'API Kubernetes.
`apiserver_current_inflight_requests`	`ClusterName` `ClusterName`, `request_kind`	Le nombre de requêtes en cours de traitement par le serveur d'API Kubernetes.
`apiserver_admission_webhook_admission_duration_seconds`	`ClusterName` `ClusterName`, `name`	Latence du webhook d'admission en secondes. Les webhooks d'admission sont des rappels HTTP qui reçoivent les requêtes d'admission et en font quelque chose.
`apiserver_admission_step_admission_duration_seconds`	`ClusterName` `ClusterName`, `operation`	Latence des sous-étapes d'admission en secondes.
`apiserver_requested_deprecated_apis`	`ClusterName` `ClusterName`, `group`	Nombre de demandes à déprécier APIs sur le serveur d'API Kubernetes.
`apiserver_request_total_5xx`	`ClusterName` `ClusterName`, `code`, `verb`	Nombre de demandes adressées au serveur d'API Kubernetes qui ont reçu un code de réponse HTTP 5xx.
`apiserver_storage_list_duration_seconds`	`ClusterName` `ClusterName`, `resource`	Latence de réponse lors de l’établissement de listes d’objets à partir d’Etc. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.
`apiserver_flowcontrol_request_concurrency_limit`	`ClusterName` `ClusterName`, `priority_level`	Nombre de threads utilisés par les requêtes en cours d’exécution dans le sous-système API Priority and Fairness.
`apiserver_flowcontrol_rejected_requests_total`	`ClusterName` `ClusterName`, `reason`	Nombre de requêtes rejetées par le sous-système API Priority and Fairness. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.
`apiserver_current_inqueue_requests`	`ClusterName` `ClusterName`, `request_kind`	Le nombre de requêtes mises en file d'attente par le serveur d'API Kubernetes. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.

Métriques des GPU NVIDIA

À partir de la version 1.300034.0 de l' CloudWatch agent, Container Insights, doté d'une observabilité améliorée pour Amazon EKS, collecte par défaut les métriques du GPU NVIDIA à partir des charges de travail EKS. L' CloudWatch agent doit être installé à l'aide de la version complémentaire CloudWatch Observability EKS v1.3.0-eksbuild.1 ou d'une version ultérieure. Pour de plus amples informations, veuillez consulter Installez l' CloudWatch agent avec le module complémentaire Amazon CloudWatch Observability EKS ou le graphique Helm. Ces métriques NVIDIA GPU collectées sont répertoriées dans le tableau de cette section.

Pour que Container Insights collecte les métriques NVIDIA GPU, vous devez remplir les conditions préalables suivantes :

Vous devez utiliser Container Insights avec une observabilité améliorée pour Amazon EKS, avec la version complémentaire Amazon CloudWatch Observability EKS v1.3.0-eksbuild.1 ou une version ultérieure.
Le plugin de périphérique NVIDIA pour Kubernetes doit être installé dans le cluster.
Le kit d’outils pour conteneurs NVIDIA doit être installé sur les nœuds du cluster. Par exemple, les accélérateurs optimisés Amazon EKS AMIs sont conçus avec les composants nécessaires.

Vous pouvez choisir de ne pas collecter les métriques du GPU NVIDIA en définissant l'accelerated_compute_metricsoption dans le fichier de configuration de l' CloudWatch agent Begin sur. false Pour plus d’informations et un exemple de configuration de désactivation, consultez (Facultatif) Configuration supplémentaire.

Nom de la métrique	Dimensions	Description
`container_gpu_memory_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	La taille totale du frame buffer, en octets, sur le(s) GPU alloué(s) au conteneur.
`container_gpu_memory_used`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Les octets du frame buffer utilisés sur le(s) GPU alloué(s) au conteneur.
`container_gpu_memory_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Le pourcentage du frame buffer utilisé sur le(s) GPU alloué(s) au conteneur.
`container_gpu_power_draw`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	La consommation d’énergie en watts du (des) GPU alloué(s) au conteneur.
`container_gpu_temperature`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	La température en degrés Celsius du (des) GPU alloué(s) au conteneur.
`container_gpu_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Le pourcentage d’utilisation du (des) GPU alloué(s) au conteneur.
`container_gpu_tensor_core_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Pourcentage d'utilisation des cœurs tensoriels sur le ou les GPU alloués au conteneur.
`node_gpu_memory_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	La taille totale du frame buffer, en octets, sur le(s) GPU alloué(s) au nœud.
`node_gpu_memory_used`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Les octets du tampon de trame utilisés sur le(s) GPU alloué(s) au nœud.
`node_gpu_memory_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Le pourcentage du tampon de trame utilisé sur le(s) GPU alloué(s) au nœud.
`node_gpu_power_draw`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	La consommation d’énergie en watts du (des) GPU alloué(s) au nœud.
`node_gpu_temperature`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	La température en degrés Celsius du (des) GPU alloué(s) au nœud.
`node_gpu_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Le pourcentage d’utilisation du (des) GPU alloué(s) au nœud.
`node_gpu_tensor_core_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Pourcentage d'utilisation des cœurs tensoriels sur le ou les GPU alloués au nœud.
`pod_gpu_memory_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	La taille totale du tampon de trame, en octets, sur le(s) GPU alloué(s) au pod.
`pod_gpu_memory_used`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	Les octets du tampon de trame utilisés sur le(s) GPU alloué(s) au pod.
`pod_gpu_memory_utilization`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	Le pourcentage du tampon de trame utilisé sur le(s) GPU alloué(s) au pod.
`pod_gpu_power_draw`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	La consommation d’énergie en watts du (des) GPU alloué(s) au pod.
`pod_gpu_temperature`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	La température en degrés Celsius du (des) GPU alloué(s) au pod.
`pod_gpu_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Le pourcentage d’utilisation du (des) GPU alloué(s) au pod.
`pod_gpu_tensor_core_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Pourcentage d'utilisation des cœurs tensoriels sur le ou les GPU alloués au pod.

Surveillance détaillée du GPU

À partir de la version 1.300062.0 de l' CloudWatch agent, Container Insights, doté d'une observabilité améliorée pour Amazon EKS, prend en charge une surveillance détaillée du GPU avec des intervalles de collecte inférieurs à une minute. Cela permet de combler les lacunes de surveillance pour les charges de travail d'inférence de courte durée liées à l'apprentissage automatique qui peuvent être totalement ignorées par les intervalles de collecte standard. L' CloudWatch agent doit être installé à l'aide de la version complémentaire CloudWatch Observability EKS v4.7.0-eksbuild.1 ou d'une version ultérieure. Pour de plus amples informations, veuillez consulter Installez l' CloudWatch agent avec le module complémentaire Amazon CloudWatch Observability EKS ou le graphique Helm.

Par défaut, les métriques du GPU sont collectées et ingérées toutes les 60 secondes. Lorsque la surveillance détaillée est activée, l' CloudWatch agent collecte les métriques du GPU à des intervalles inférieurs à une minute (minimum 1 seconde), mais les métriques sont toujours ingérées à des CloudWatch intervalles d'une minute. Cependant, vous pouvez demander des agrégations statistiques (telles que le minimum, le maximum et les percentiles tels que p90) des points de données inférieurs à une minute par période d'une minute, afin de fournir des données précises sur l'utilisation du GPU et une meilleure optimisation des ressources.

Configuration

Pour activer la surveillance détaillée du GPU, mettez à jour la configuration de votre CloudWatch agent pour inclure le accelerated_compute_gpu_metrics_collection_interval paramètre dans la kubernetes section, comme dans l'exemple suivant.


{  
    "logs": {  
        "metrics_collected": {  
            "kubernetes": {  
                "cluster_name": "MyCluster",  
                "enhanced_container_insights": true,  
                "accelerated_compute_metrics": true,  
                "accelerated_compute_gpu_metrics_collection_interval": 1  
            }  
        }  
    }  
}

Le accelerated_compute_gpu_metrics_collection_interval paramètre accepte les valeurs en secondes, avec une valeur minimale de 1 seconde. Le paramétrer pour activer 1 les intervalles de collecte d'une seconde. Si ce paramètre n'est pas spécifié, l'intervalle de 60 secondes par défaut est utilisé.

Pour obtenir des instructions de configuration complètes, consultezConfiguration de l' CloudWatch agent pour collecter les métriques du cluster.

AWSMétriques neuronales pour AWS Trainium et Inferentia AWS

À partir de la version 1.300036.0 de l' CloudWatch agent, Container Insights with Enhanced Observability for Amazon EKS collecte par défaut les métriques de calcul accéléré à partir des accélérateurs AWS Trainium et AWS Inferentia. L' CloudWatch agent doit être installé à l'aide de la version complémentaire CloudWatch Observability EKS v1.5.0-eksbuild.1 ou d'une version ultérieure. Pour plus d’informations sur le module complémentaire, consultez Installez l' CloudWatch agent avec le module complémentaire Amazon CloudWatch Observability EKS ou le graphique Helm. Pour plus d’informations sur AWS Trainium, consultez AWS Trainium. Pour plus d'informations sur AWS Inferentia, voir AWSInferentia.

Pour que Container Insights collecte des métriques AWS Neuron, vous devez remplir les conditions préalables suivantes :

Vous devez utiliser Container Insights avec une observabilité améliorée pour Amazon EKS, avec la version complémentaire Amazon CloudWatch Observability EKS v1.5.0-eksbuild.1 ou une version ultérieure.
Le pilote Neuron doit être installé sur les nœuds du cluster.
Le plugin d’appareil Neuron doit être installé sur le cluster. Par exemple, les accélérateurs optimisés Amazon EKS AMIs sont conçus avec les composants nécessaires.

Les métriques collectées sont répertoriées dans le tableau de cette section. Les métriques sont collectées pour AWS Trainium, AWS Inferentia et AWS Inferentia2.

L' CloudWatch agent collecte ces métriques à partir du moniteur Neuron et effectue la corrélation des ressources Kubernetes nécessaire pour fournir des métriques au niveau du pod et du conteneur.

Nom de la métrique Dimensions Description

Nom de la métrique	Dimensions	Description
`container_neuroncore_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	NeuronCore utilisation, pendant la période capturée, de l' NeuronCoreallocation au conteneur. Unité : pourcentage
`container_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire du périphérique utilisée pour les constantes pendant l'entraînement par le NeuronCore qui est allouée au conteneur (ou les poids lors de l'inférence). Unité : octets
`container_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le code exécutable des modèles par le NeuronCore qui est allouée au conteneur. Unité : octets
`container_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le bloc-notes partagé par les NeuronCore modèles et allouée au conteneur. Cette région de mémoire est réservée aux modèles. Unité : octets
`container_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le runtime Neuron par la mémoire NeuronCore allouée au conteneur. Unité : octets
`container_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire du périphérique utilisée pour les tenseurs par la quantité NeuronCore allouée au conteneur. Unité : octets
`container_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La quantité totale de mémoire utilisée par la mémoire NeuronCore allouée au conteneur. Unité : octets
`container_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`	Le nombre d’événements ECC corrigés et non corrigés pour la SRAM sur puce et la mémoire d’appareil de l’appareil Neuron sur le nœud. Unité : nombre
`pod_neuroncore_utilization`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	L' NeuronCore utilisation pendant la période capturée de l' NeuronCoreallocation au pod. Unité : pourcentage
`pod_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour les constantes pendant l'entraînement par le NeuronCore module (ou les poids lors de l'inférence). Unité : octets
`pod_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le code exécutable des modèles par le NeuronCore qui est allouée au pod. Unité : octets
`pod_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le bloc-notes partagée entre les modèles par le module NeuronCore et allouée au pod. Cette région de mémoire est réservée aux modèles. Unité : octets
`pod_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le runtime Neuron par la mémoire NeuronCore allouée au pod. Unité : octets
`pod_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour les tenseurs par la mémoire NeuronCore allouée au pod. Unité : octets
`pod_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La quantité totale de mémoire utilisée par la mémoire NeuronCore allouée au pod. Unité : octets
`pod_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`	Le nombre d’événements ECC corrigés et non corrigés pour la SRAM sur puce et la mémoire d’appareil de l’appareil Neuron alloué à un pod. Unité : octets
`node_neuroncore_utilization`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	L' NeuronCore utilisation pendant la période capturée du NeuronCore montant alloué au nœud. Unité : pourcentage
`node_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire du périphérique utilisée pour les constantes pendant l'entraînement par le NeuronCore nœud (ou les poids lors de l'inférence). Unité : octets
`node_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le code exécutable des modèles par le NeuronCore qui est allouée au nœud. Unité : octets
`node_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le bloc-notes partagé entre NeuronCore les modèles par le nœud. Il s’agit d’une région de mémoire réservée aux modèles. Unité : octets
`node_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le runtime Neuron par le périphérique NeuronCore qui est allouée au nœud. Unité : octets
`node_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire du périphérique utilisée pour les tenseurs par le NeuronCore qui est allouée au nœud. Unité : octets
`node_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La quantité totale de mémoire utilisée par le nœud NeuronCore qui est allouée au nœud. Unité : octets
`node_neuron_execution_errors_total`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`	Le nombre total d’erreurs d’exécution sur le nœud. Ceci est calculé par l' CloudWatch agent en agrégeant les erreurs des types suivants :`generic`,`numerical`,`transient`, `modelruntime`, et `hardware` Unité : nombre
`node_neurondevice_runtime_memory_used_bytes`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`	L’utilisation totale de la mémoire de l’appareil Neuron en octets sur le nœud. Unité : octets
`node_neuron_execution_latency`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`	En secondes, la latence d’une exécution sur le nœud, mesurée par l’exécution Neuron. Unité : secondes
`node_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `NodeName`, `NeuronDevice`	Le nombre d’événements ECC corrigés et non corrigés pour la SRAM sur puce et la mémoire d’appareil de l’appareil Neuron sur le nœud. Unité : nombre

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

NeuronCore utilisation, pendant la période capturée, de l' NeuronCoreallocation au conteneur.

Unité : pourcentage

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité de mémoire du périphérique utilisée pour les constantes pendant l'entraînement par le NeuronCore qui est allouée au conteneur (ou les poids lors de l'inférence).

Unité : octets

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le code exécutable des modèles par le NeuronCore qui est allouée au conteneur.

Unité : octets

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le bloc-notes partagé par les NeuronCore modèles et allouée au conteneur. Cette région de mémoire est réservée aux modèles.

Unité : octets

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le runtime Neuron par la mémoire NeuronCore allouée au conteneur.

Unité : octets

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité de mémoire du périphérique utilisée pour les tenseurs par la quantité NeuronCore allouée au conteneur.

Unité : octets

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité totale de mémoire utilisée par la mémoire NeuronCore allouée au conteneur.

Unité : octets

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

Le nombre d’événements ECC corrigés et non corrigés pour la SRAM sur puce et la mémoire d’appareil de l’appareil Neuron sur le nœud.

Unité : nombre

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

L' NeuronCore utilisation pendant la période capturée de l' NeuronCoreallocation au pod.

Unité : pourcentage

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour les constantes pendant l'entraînement par le NeuronCore module (ou les poids lors de l'inférence).

Unité : octets

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le code exécutable des modèles par le NeuronCore qui est allouée au pod.

Unité : octets

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le bloc-notes partagée entre les modèles par le module NeuronCore et allouée au pod. Cette région de mémoire est réservée aux modèles.

Unité : octets

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le runtime Neuron par la mémoire NeuronCore allouée au pod.

Unité : octets

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour les tenseurs par la mémoire NeuronCore allouée au pod.

Unité : octets

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité totale de mémoire utilisée par la mémoire NeuronCore allouée au pod.

Unité : octets

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

Le nombre d’événements ECC corrigés et non corrigés pour la SRAM sur puce et la mémoire d’appareil de l’appareil Neuron alloué à un pod.

Unité : octets

node_neuroncore_utilization

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

L' NeuronCore utilisation pendant la période capturée du NeuronCore montant alloué au nœud.

Unité : pourcentage

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité de mémoire du périphérique utilisée pour les constantes pendant l'entraînement par le NeuronCore nœud (ou les poids lors de l'inférence).

Unité : octets

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le code exécutable des modèles par le NeuronCore qui est allouée au nœud.

Unité : octets

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le bloc-notes partagé entre NeuronCore les modèles par le nœud. Il s’agit d’une région de mémoire réservée aux modèles.

Unité : octets

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le runtime Neuron par le périphérique NeuronCore qui est allouée au nœud.

Unité : octets

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité de mémoire du périphérique utilisée pour les tenseurs par le NeuronCore qui est allouée au nœud.

Unité : octets

node_neuroncore_memory_usage_total

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité totale de mémoire utilisée par le nœud NeuronCore qui est allouée au nœud.

Unité : octets

node_neuron_execution_errors_total

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

Le nombre total d’erreurs d’exécution sur le nœud. Ceci est calculé par l' CloudWatch agent en agrégeant les erreurs des types suivants :generic,numerical,transient, modelruntime, et hardware

Unité : nombre

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

L’utilisation totale de la mémoire de l’appareil Neuron en octets sur le nœud.

Unité : octets

node_neuron_execution_latency

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

En secondes, la latence d’une exécution sur le nœud, mesurée par l’exécution Neuron.

Unité : secondes

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

Le nombre d’événements ECC corrigés et non corrigés pour la SRAM sur puce et la mémoire d’appareil de l’appareil Neuron sur le nœud.

Unité : nombre

AWSMétriques de l'Elastic Fabric Adapter (EFA)

À partir de la version 1.300037.0 de l' CloudWatch agent, Container Insights, doté d'une observabilité améliorée pour Amazon EKS, collecte les métriques AWS Elastic Fabric Adapter (EFA) à partir de clusters Amazon EKS sur des instances Linux. L' CloudWatch agent doit être installé à l'aide de la version complémentaire CloudWatch Observability EKS v1.5.2-eksbuild.1 ou d'une version ultérieure. Pour plus d’informations sur le module complémentaire, consultez Installez l' CloudWatch agent avec le module complémentaire Amazon CloudWatch Observability EKS ou le graphique Helm. Pour plus d’informations sur AWS Elastic Fabric Adapter, consultez Elastic Fabric Adapter.

Pour que Container Insights collecte les métriques des adaptateurs AWS Elastic Fabric, vous devez remplir les conditions préalables suivantes :

Vous devez utiliser Container Insights avec une observabilité améliorée pour Amazon EKS, avec la version complémentaire Amazon CloudWatch Observability EKS v1.5.2-eksbuild.1 ou une version ultérieure.
Le plugin de périphérique EFA doit être installé sur le cluster. Pour plus d'informations, voir aws-efa-k8 s-device-plugin sur GitHub.

Les métriques collectées sont répertoriées dans le tableau suivant.

Nom de la métrique Dimensions Description

Nom de la métrique	Dimensions	Description
`container_efa_rx_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	Le nombre d’octets par seconde reçus par le(s) périphérique(s) EFA alloué(s) au conteneur. Unité : octets/seconde
`container_efa_tx_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	Le nombre d’octets par seconde transmis par le(s) périphérique(s) EFA alloué(s) au conteneur. Unité : octets/seconde
`container_efa_rx_dropped`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	Le nombre de paquets reçus puis abandonnés par le(s) périphérique(s) EFA attribué(s) au conteneur. Unité : nombre/seconde
`container_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	Le nombre d’octets par seconde reçus au moyen d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au conteneur. Unité : octets/seconde
`container_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	Nombre d’octets par seconde transmis au moyen d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au conteneur. Unité : octets/seconde
`container_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	Nombre d’octets par seconde reçus lors d’opérations d’écriture en accès direct à la mémoire distante par le(s) périphérique(s) EFA alloué(s) au conteneur. Unité : octets/seconde
`pod_efa_rx_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	Le nombre d’octets par seconde reçus par le(s) périphérique(s) EFA alloué(s) au pod. Unité : octets/seconde
`pod_efa_tx_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	Le nombre d’octets par seconde transmis par le(s) périphérique(s) EFA attribué(s) au pod. Unité : octets/seconde
`pod_efa_rx_dropped`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	Nombre de paquets reçus puis abandonnés par le(s) périphérique(s) EFA affecté(s) au pod. Unité : nombre/seconde
`pod_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	Nombre d’octets par seconde reçus au moyen d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au pod. Unité : octets/seconde
`pod_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	Nombre d’octets par seconde transmis au moyen d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au pod. Unité : octets/seconde
`pod_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	Le nombre d’octets par seconde reçus lors d’opérations d’écriture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au pod. Unité : octets/seconde
`node_efa_rx_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	Le nombre d’octets par seconde reçus par le(s) périphérique(s) EFA alloué(s) au nœud. Unité : octets/seconde
`node_efa_tx_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	Le nombre d’octets par seconde transmis par le(s) périphérique(s) EFA alloué(s) au nœud. Unité : octets/seconde
`node_efa_rx_dropped`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	Nombre de paquets reçus puis abandonnés par le(s) périphérique(s) EFA alloué(s) au nœud. Unité : nombre/seconde
`node_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	Le nombre d’octets par seconde reçus lors d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au nœud. Unité : octets/seconde
`node_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	Nombre d’octets par seconde transmis au moyen d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au pod. Unité : octets/seconde
`node_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	Le nombre d’octets par seconde reçus lors d’opérations d’écriture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au nœud. Unité : octets/seconde

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Le nombre d’octets par seconde reçus par le(s) périphérique(s) EFA alloué(s) au conteneur.

Unité : octets/seconde

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Le nombre d’octets par seconde transmis par le(s) périphérique(s) EFA alloué(s) au conteneur.

Unité : octets/seconde

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Le nombre de paquets reçus puis abandonnés par le(s) périphérique(s) EFA attribué(s) au conteneur.

Unité : nombre/seconde

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Le nombre d’octets par seconde reçus au moyen d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au conteneur.

Unité : octets/seconde

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Nombre d’octets par seconde transmis au moyen d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au conteneur.

Unité : octets/seconde

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Nombre d’octets par seconde reçus lors d’opérations d’écriture en accès direct à la mémoire distante par le(s) périphérique(s) EFA alloué(s) au conteneur.

Unité : octets/seconde

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Le nombre d’octets par seconde reçus par le(s) périphérique(s) EFA alloué(s) au pod.

Unité : octets/seconde

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Le nombre d’octets par seconde transmis par le(s) périphérique(s) EFA attribué(s) au pod.

Unité : octets/seconde

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Nombre de paquets reçus puis abandonnés par le(s) périphérique(s) EFA affecté(s) au pod.

Unité : nombre/seconde

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Nombre d’octets par seconde reçus au moyen d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au pod.

Unité : octets/seconde

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Nombre d’octets par seconde transmis au moyen d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au pod.

Unité : octets/seconde

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Le nombre d’octets par seconde reçus lors d’opérations d’écriture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au pod.

Unité : octets/seconde

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Le nombre d’octets par seconde reçus par le(s) périphérique(s) EFA alloué(s) au nœud.

Unité : octets/seconde

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Le nombre d’octets par seconde transmis par le(s) périphérique(s) EFA alloué(s) au nœud.

Unité : octets/seconde

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Nombre de paquets reçus puis abandonnés par le(s) périphérique(s) EFA alloué(s) au nœud.

Unité : nombre/seconde

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Le nombre d’octets par seconde reçus lors d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au nœud.

Unité : octets/seconde

node_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Nombre d’octets par seconde transmis au moyen d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au pod.

Unité : octets/seconde

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Le nombre d’octets par seconde reçus lors d’opérations d’écriture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au nœud.

Unité : octets/seconde

Métriques Amazon SageMaker AI HyperPod

À partir de la version v2.0.1-eksbuild.1 du module complémentaire CloudWatch Observability EKS, Container Insights, doté d'une observabilité améliorée pour Amazon EKS, collecte automatiquement les Amazon SageMaker AI HyperPod métriques des clusters Amazon EKS. Pour plus d’informations sur le module complémentaire, consultez Installez l' CloudWatch agent avec le module complémentaire Amazon CloudWatch Observability EKS ou le graphique Helm. Pour plus d'informations sur Amazon SageMaker AIHyperPod, voir Amazon SageMaker AI HyperPod.

Les métriques collectées sont répertoriées dans le tableau suivant.

Nom de la métrique Dimensions Description

Nom de la métrique	Dimensions	Description
`hyperpod_node_health_status_unschedulable`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si un nœud est étiqueté `Unschedulable` par Amazon SageMaker AIHyperPod. Cela signifie que le nœud fait l’objet de surveillances de l’état approfondies et qu’il n’est pas disponible pour exécuter des charges de travail. Unité : nombre
`hyperpod_node_health_status_schedulable`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si un nœud est étiqueté `Schedulable` par Amazon SageMaker AIHyperPod. Cela signifie que le nœud a passé les surveillances de l’état de base ou approfondies et qu’il est disponible pour l’exécution des charges de travail. Unité : nombre
`hyperpod_node_health_status_unschedulable_pending_replacement`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si un nœud est étiqueté `UnschedulablePendingReplacement` par HyperPod. Cela signifie que le nœud a échoué aux surveillances de l’état approfondies ou aux vérifications de l’agent de surveillance de l’état et qu’il a besoin d’être remplacé. Si la restauration automatique des nœuds est activée, le nœud sera automatiquement remplacé par Amazon SageMaker AIHyperPod. Unité : nombre
`hyperpod_node_health_status_unschedulable_pending_reboot`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si un nœud est étiqueté `UnschedulablePendingReboot` par Amazon SageMaker AIHyperPod. Cela signifie que le nœud exécute des vérifications de l’état approfondies et nécessite un redémarrage. Si la restauration automatique du nœud est activée, le nœud sera automatiquement redémarré par. Amazon SageMaker AI HyperPod Unité : nombre

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

Indique si un nœud est étiqueté Unschedulable par Amazon SageMaker AIHyperPod. Cela signifie que le nœud fait l’objet de surveillances de l’état approfondies et qu’il n’est pas disponible pour exécuter des charges de travail.

Unité : nombre

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

Indique si un nœud est étiqueté Schedulable par Amazon SageMaker AIHyperPod. Cela signifie que le nœud a passé les surveillances de l’état de base ou approfondies et qu’il est disponible pour l’exécution des charges de travail.

Unité : nombre

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

Indique si un nœud est étiqueté UnschedulablePendingReplacement par HyperPod. Cela signifie que le nœud a échoué aux surveillances de l’état approfondies ou aux vérifications de l’agent de surveillance de l’état et qu’il a besoin d’être remplacé.

Si la restauration automatique des nœuds est activée, le nœud sera automatiquement remplacé par Amazon SageMaker AIHyperPod.

Unité : nombre

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

Indique si un nœud est étiqueté UnschedulablePendingReboot par Amazon SageMaker AIHyperPod. Cela signifie que le nœud exécute des vérifications de l’état approfondies et nécessite un redémarrage.

Si la restauration automatique du nœud est activée, le nœud sera automatiquement redémarré par. Amazon SageMaker AI HyperPod

Unité : nombre

Statistiques relatives aux NVMe conducteurs Amazon EBS

À partir de la version 1.300056.0 de l' CloudWatch agent, Container Insights, doté d'une observabilité améliorée pour Amazon EKS, collecte automatiquement les métriques des NVMe pilotes Amazon EBS à partir des clusters Amazon EKS sur des instances Linux. L' CloudWatch agent doit être installé à l'aide de la version complémentaire CloudWatch d'Observability Amazon EKS 4.1.0 ou d'une version ultérieure. Pour plus d’informations sur le module complémentaire, consultez Installez l' CloudWatch agent avec le module complémentaire Amazon CloudWatch Observability EKS ou le graphique Helm. Pour plus d’informations sur Amazon EBS, consultez Statistiques de performance détaillées d’Amazon EBS.

Pour que Container Insights collecte les métriques des NVMe conducteurs Amazon EBS, vous devez remplir les conditions préalables suivantes :

Vous devez utiliser Container Insights avec une observabilité améliorée pour Amazon EKS, avec la version complémentaire CloudWatch Observability Amazon EKS 4.1.0 ou une version ultérieure.
Le module complémentaire du pilote CSI EBS 1.42.0 ou les Charts de Helm doivent être installés sur le cluster avec les métriques activées.
- Pour activer les métriques lorsque vous utilisez le module complémentaire du pilote CSI Amazon EBS, utilisez l’option suivante lors de la création ou de la mise à jour du module complémentaire. --configuration-values '{ "node": { "enableMetrics": true } }'
- Pour activer les métriques si vous utilisez les Charts de Helm, utilisez l’option suivante lorsque vous créez ou mettez à jour le module complémentaire. --set node.enableMetrics=true

Les métriques collectées sont répertoriées dans le tableau suivant.

Nom de la métrique	Dimensions	Description
`node_diskio_ebs_total_read_ops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Nombre total d’opérations de lecture terminées.
`node_diskio_ebs_total_write_ops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Nombre total d’opérations d’écriture terminées.
`node_diskio_ebs_total_read_bytes`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Nombre total d’octets lus transférés.
`node_diskio_ebs_total_write_bytes`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Nombre total d’octets écrits transférés.
`node_diskio_ebs_total_read_time`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Temps total, en microsecondes, passé pour toutes les opérations de lecture terminées.
`node_diskio_ebs_total_write_time`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Temps total, en microsecondes, passé pour toutes les opérations d’écriture terminées.
`node_diskio_ebs_volume_performance_exceeded_iops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Temps total, en microsecondes, pendant lequel la demande d’IOPS a dépassé les performances d’IOPS provisionnées pour le volume.
`node_diskio_ebs_volume_performance_exceeded_tp`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Temps total, en microsecondes, pendant lequel la demande de débit a dépassé les performances de débit provisionnées pour le volume.
`node_diskio_ebs_ec2_instance_performance_exceeded_iops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Durée totale, en microsecondes, pendant laquelle le volume EBS a dépassé les performances IOPS maximales de l' EC2 instance Amazon attachée.
`node_diskio_ebs_ec2_instance_performance_exceeded_tp`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Durée totale, en microsecondes, pendant laquelle le volume EBS a dépassé les performances de débit maximales de l' EC2 instance Amazon attachée.
`node_diskio_ebs_volume_queue_length`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Nombre d’opérations de lecture et d’écriture en attente d’exécution.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Métriques de Container Insights pour Amazon ECS

Métriques Container Insights pour Amazon EKS et Kubernetes