View a markdown version of this page

Información de contenedores con métricas de OpenTelemetry para Amazon EKS - Amazon CloudWatch

Información de contenedores con métricas de OpenTelemetry para Amazon EKS

Vista previa

Información de contenedores con métricas de OpenTelemetry proporciona visibilidad del estado operativo de su infraestructura de clústeres de Amazon EKS. Está disponible en versión preliminar pública sin costo adicional en Este de EE. UU. (Norte de Virginia), Oeste de EE. UU. (Oregón), Europa (Irlanda), Asia-Pacífico (Singapur) y Asia-Pacífico (Sídney).

El complemento de observabilidad de EKS de Amazon CloudWatch recopila métricas de código abierto de sus clústeres de Amazon EKS y las envía a CloudWatch mediante OpenTelemetry Protocol (OTLP) con una granularidad de 30 segundos. Estas métricas utilizan los nombres de métricas de sus fuentes originales, como Advisor, Prometheus Node Exporter, NVIDIA DCGM, Kube State Metrics y AWS Neuron Monitor. Puede consultar estas métricas mediante PromQL en CloudWatch Query Studio o mediante la API de consultas compatible con Prometheus.

Cada métrica se enriquece automáticamente con hasta 150 etiquetas, incluidos los atributos de convención semántica de OpenTelemetry y las etiquetas de pod y nodo de Kubernetes. PromQL gestiona la agregación en el momento de la consulta, por lo que cada métrica se publica una vez por recurso en lugar de hacerlo en varios niveles de agregación. El complemento también correlaciona las métricas de aceleración de AWS Neuron y AWS Elastic Fabric Adapter con los módulos y contenedores específicos que las utilizan, lo que proporciona una visibilidad que no ofrecen los orígenes de métricas por sí solos.

Para usar Información de contenedores con OpenTelemetry en un clúster de Amazon EKS, instale el complemento de observabilidad de EKS de Amazon CloudWatch (versión v6.0.1-eksbuild.1 o posterior) mediante la consola de Amazon EKS o mediante infraestructura como código.

Para más información sobre la configuración de Información de Contenedores con OpenTelemetry, consulte Configuración de Información de contenedores.

Para obtener más información sobre cómo consultar estas métricas con PromQL, consulte Consultas PromQL.

Comparación entre Información de contenedores con OpenTelemetry e Información de contenedores (mejorada)

En la siguiente tabla, se resumen las diferencias entre Información de contenedores con OpenTelemetry e Información de contenedores (mejorada).

Característica Información de contenedores (mejorada) Información de contenedores con OpenTelemetry
Nombres de métricas Métricas en formato CloudWatch (por ejemplo, pod_cpu_utilization) Nativos de código abierto (por ejemplo, container_cpu_usage_seconds_total)
Etiquetas por métrica De 3 a 6 dimensiones predefinidas por métrica Hasta 150 etiquetas, incluidas todas las etiquetas de pod y nodo de Kubernetes
Agregación Agregación previa en varios niveles (clúster, espacio de nombres, carga de trabajo, módulo) Métricas sin procesar por recurso; agregadas en el momento de la consulta con PromQL
Lenguaje de consulta API de Métricas de CloudWatch PromQL (compatible con Prometheus)
Ingesta de métricas Registros de CloudWatch en formato EMF Punto de conexión de OTLP

Cómo se etiquetan las métricas

Cada métrica recopilada por Información de contenedores con OpenTelemetry contiene etiquetas de tres orígenes.

Etiquetas nativas del origen de telemetría

Etiquetas de la fuente de métricas original (por ejemplo, cAdvisor proporciona etiquetas como pod, namespace y container). Se conservan como atributos de puntos de datos.

Atributos de recursos de OpenTelemetry

El complemento agrega atributos de recursos siguiendo las convenciones semánticas de OpenTelemetry para Kubernetes, Host y Nube, como k8s.pod.name, k8s.namespace.name, k8s.node.name, host.name y cloud.region. Estos atributos son consistentes en todos los orígenes de métricas.

Etiquetas de pods y nodos de Kubernetes

Todas las etiquetas de pods y nodos detectadas por la API de Kubernetes se adjuntan como atributos de recurso con los prefijos k8s.pod.label y k8s.node.label.

Para obtener más información sobre cómo elegir un complemento de observabilidad de EKS, consulte Consultas PromQL.

Métricas admitidas

En la siguiente tabla se indican los orígenes y categorías de métricas recopiladas por Información de contenedores con OpenTelemetry.

Origen de la métrica Categoría métrica Requisitos previos
cAdvisor Métricas de CPU -
cAdvisor Métricas de memoria -
cAdvisor Métricas de red -
cAdvisor Métricas del disco y del sistema de archivos -
Exportador de nodos de Prometheus Métricas de CPU -
Exportador de nodos de Prometheus Métricas de memoria -
Exportador de nodos de Prometheus Métricas de disco -
Exportador de nodos de Prometheus Métricas del sistema de archivos -
Exportador de nodos de Prometheus Métricas de red -
Exportador de nodos de Prometheus Métricas del sistema -
Exportador de nodos de Prometheus Métricas de VMStat -
Exportador de nodos de Prometheus Métricas de Netstat y sockets -
DCGM de NVIDIA Métricas de uso y rendimiento de la GPU Es necesario instalar el complemento de dispositivo NVIDIA y el kit de herramientas de contenedores de NVIDIA.
DCGM de NVIDIA Métricas de memoria de la GPU Es necesario instalar el complemento de dispositivo NVIDIA y el kit de herramientas de contenedores de NVIDIA.
DCGM de NVIDIA Métricas térmicas y de potencia de la GPU Es necesario instalar el complemento de dispositivo NVIDIA y el kit de herramientas de contenedores de NVIDIA.
DCGM de NVIDIA Métricas de limitación de la GPU Es necesario instalar el complemento de dispositivo NVIDIA y el kit de herramientas de contenedores de NVIDIA.
DCGM de NVIDIA Métricas de errores y fiabilidad de la GPU Es necesario instalar el complemento de dispositivo NVIDIA y el kit de herramientas de contenedores de NVIDIA.
DCGM de NVIDIA Métricas NVLink de la GPU Es necesario instalar el complemento de dispositivo NVIDIA y el kit de herramientas de contenedores de NVIDIA.
DCGM de NVIDIA Métricas informacionales de la GPU Es necesario instalar el complemento de dispositivo NVIDIA y el kit de herramientas de contenedores de NVIDIA.
AWS Neuron Monitor Métricas de NeuronCore Es necesario instalar el controlador Neuron y el complemento de dispositivo Neuron.
AWS Neuron Monitor Métricas de NeuronDevice Es necesario instalar el controlador Neuron y el complemento de dispositivo Neuron.
AWS Neuron Monitor Métricas de sistema de Neuron Es necesario instalar el controlador Neuron y el complemento de dispositivo Neuron.
AWS Elastic Fabric Adapter Métricas de EFA Es necesario instalar el complemento de dispositivo EFA.
NVMe Métricas SMART de NVMe -
Métricas de estado de Kube Métricas pod, node, Deployment, DaemonSet, StatefulSet, ReplicaSet, Job, CronJob, Service, Namespace, PersistentVolume, PersistentVolumeClaim -
Servidor de la API de Kubernetes Métricas del servidor de API y de etcd -