SageMaker HyperPod métricas de clúster - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker HyperPod métricas de clúster

Amazon SageMaker HyperPod (SageMaker HyperPod) publica varias métricas en 9 categorías distintas en tu espacio de trabajo de Amazon Managed Service for Prometheus. No todas las métricas están activadas de forma predeterminada ni se muestran en el espacio de trabajo de Amazon Managed Grafana. En la siguiente tabla se muestra qué métricas están activas de forma predeterminada al instalar el complemento de observabilidad, qué categorías tienen métricas adicionales que se pueden activar para obtener información de clúster más detallada y dónde aparecen en el espacio de trabajo de Amazon Managed Grafana.

Categoría métrica ¿Activada de forma predeterminada? ¿Hay métricas avanzadas adicionales disponibles? ¿En qué paneles de Grafana está disponible?
Métricas de entrenamiento Formación
Métricas de inferencia No Inferencia
Métricas de gobernanza de tareas No Ninguna. Consulte el espacio de trabajo de Amazon Managed Service para Prometheus para crear su propio panel.
Métricas de escalado No Ninguna. Consulte el espacio de trabajo de Amazon Managed Service para Prometheus para crear su propio panel.
Métricas de clúster Clúster
Métricas de la instancia Clúster
Métricas de computación acelerada Tarea, clúster
Métricas de red No Clúster
Sistema de archivos No Sistema de archivos

En las siguientes tablas se describen las métricas disponibles para monitorizar su SageMaker HyperPod clúster, organizadas por categoría.

Métricas de entrenamiento

Utilice estas métricas para realizar un seguimiento del rendimiento de las tareas de entrenamiento ejecutadas en el SageMaker HyperPod clúster.

Nombre o tipo de métrica Description (Descripción) ¿Activada de forma predeterminada? Origen de la métrica
Métricas de Kubeflow https://github.com/kubeflow/entrenador Kubeflow
Métricas del pod de Kubernetes https://github.com/kubernetes/kube-state-metrics Kubernetes
training_uptime_percentage Porcentaje del tiempo de entrenamiento del tamaño total de la ventana No SageMaker HyperPod operador de entrenamiento
training_manual_recovery_count Número total de reinicios manuales realizados en el trabajo No SageMaker HyperPod operador de formación
training_manual_downtime_ms Tiempo total en milisegundos durante el cual el trabajo ha estado inactivo debido a intervenciones manuales No SageMaker HyperPod operador de formación
training_auto_recovery_count Número total de recuperaciones automáticas No SageMaker HyperPod operador de formación
training_auto_recovery_downtime Tiempo total de sobrecarga de la infraestructura en milisegundos durante la recuperación de errores No SageMaker HyperPod operador de formación
training_fault_count Número total de errores detectados durante el entrenamiento No SageMaker HyperPod operador de formación
training_fault_type_count Distribución de los fallos por tipo No SageMaker HyperPod operador de formación
training_fault_recovery_time_ms Tiempo de recuperación en milisegundos para cada tipo de fallo No SageMaker HyperPod operador de formación
training_time_ms Tiempo total en milisegundos dedicado al entrenamiento real No SageMaker HyperPod operador de formación

Métricas de inferencia

Utilice estas métricas para realizar un seguimiento del rendimiento de las tareas de inferencia en el SageMaker HyperPod clúster.

Nombre o tipo de métrica Description (Descripción) ¿Activada de forma predeterminada? Origen de la métrica
model_invocations_total Número total de solicitudes de invocación realizadas al modelo SageMaker HyperPod operador de inferencia
model_errors_total Número total de errores al invocar el modelo SageMaker HyperPod operador de inferencia
model_concurrent_requests Solicitudes al modelo simultáneas activas SageMaker HyperPod operador de inferencia
model_latency_milliseconds Latencia de invocación del modelo en milisegundos SageMaker HyperPod operador de inferencia
model_ttfb_milliseconds Latencia del modelo con respecto al primer byte en milisegundos SageMaker HyperPod operador de inferencia
TGI Estas métricas se pueden utilizar para supervisar el rendimiento de TGI, escalar automáticamente la implementación y ayudar a identificar los cuellos de botella. Para obtener una lista detallada de las métricas, consulte https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. Contenedor de modelos
LMI Estas métricas se pueden utilizar para supervisar el rendimiento de LMI y ayudar a identificar los cuellos de botella. Para obtener una lista detallada de las métricas, consulta https://github.com/deepjavalibrary/djl - .md. serving/blob/master/prometheus/README Contenedor de modelos

Métricas de gobernanza de tareas

Utilice estas métricas para supervisar la gobernanza de las tareas y la asignación de recursos en el SageMaker HyperPod clúster.

Nombre o tipo de métrica Description (Descripción) ¿Activada de forma predeterminada? Origen de la métrica
Kueue Consulte https://kueue.sigs.k8s. io/docs/reference/metrics/. No Kueue

Métricas de escalado

Usa estas métricas para monitorear el comportamiento y el rendimiento del autoscalamiento en el SageMaker HyperPod clúster.

Nombre o tipo de métrica Description (Descripción) ¿Activada de forma predeterminada? Origen de la métrica
Métricas del KEDA Operator Consulte https://keda. sh/docs/2.17/integrations/prometheus/#operator. No Escalado automático basado en eventos de Kubernetes (KEDA)
Métricas de KEDA Webhooks Consulte https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks. No Escalado automático basado en eventos de Kubernetes (KEDA)
Métricas del servidor de KEDA Metrics Consulte https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server. No Escalado automático basado en eventos de Kubernetes (KEDA)

Métricas de clúster

Utilice estas métricas para supervisar el estado general del clúster y la asignación de recursos.

Nombre o tipo de métrica Description (Descripción) ¿Activada de forma predeterminada? Origen de la métrica
Estado del clúster Métricas del servidor de la API de Kubernetes. Consulte https://kubernetes. io/docs/reference/instrumentation/metrics/. Kubernetes
Kubestate Consulte https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources. Limitado Kubernetes
KubeState Avanzado Consulte https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources. No Kubernetes

Métricas de la instancia

Utilice estas métricas para supervisar el rendimiento y el estado de las instancias individuales.

Nombre o tipo de métrica Description (Descripción) ¿Activada de forma predeterminada? Origen de la métrica
Métricas de nodos ¿Ves https://github.com/prometheus/node_exporter? readme-ov-filetab= # enabled-by-default. Kubernetes
Métricas de contenedores Métricas de contenedores expuestas por Cadvisor. Consulte https://github.com/google/cadvisor. Kubernetes

Métricas de computación acelerada

Utilice estas métricas para supervisar el rendimiento, el estado y la utilización de los dispositivos de computación acelerada individuales de su clúster.

nota

Cuando la partición de GPU con MIG (GPU de instancias múltiples) está habilitada en el clúster, las métricas de DCGM proporcionan automáticamente una granularidad a nivel de partición para monitorear instancias MIG individuales. Cada partición MIG se expone como un dispositivo de GPU independiente con sus propias métricas de temperatura, potencia, uso de memoria y actividad informática. Esto le permite realizar un seguimiento del uso y el estado de los recursos de cada partición de la GPU de forma independiente, lo que permite una supervisión precisa de las cargas de trabajo que se ejecutan en recursos fraccionados de la GPU. Para obtener más información sobre la configuración de la partición de la GPU, consulte. Uso de particiones de GPU en Amazon SageMaker HyperPod

Nombre o tipo de métrica Description (Descripción) ¿Activada de forma predeterminada? Origen de la métrica
NVIDIA GPU Métricas de DCGM. Consulte https://github.com/NVIDIA/dcgm- -metrics-included.csv. exporter/blob/main/etc/dcp Limitado

NVIDIA Data Center GPU Manager (DCGM)

NVIDIA GPU (avanzado)

Métricas de DCGM que se comentan en el siguiente archivo CSV:

https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp

No

NVIDIA Data Center GPU Manager (DCGM)

AWSTrainio Métricas de Neuron. Consulte https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- .html# monitor-user-guide. neuron-monitor-nc-counters No AWSMonitor de neuronas

Métricas de red

Utilice estas métricas para supervisar el rendimiento y el estado de los Elastic Fabric Adapter (EFA) de su clúster.

Nombre o tipo de métrica Description (Descripción) ¿Activada de forma predeterminada? Origen de la métrica
EFA Véase https://github.com/aws-samples/awsome-distributed-training//blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. No Elastic Fabric Adapter

Métricas del sistema de archivos

Nombre o tipo de métrica Description (Descripción) ¿Activada de forma predeterminada? Origen de la métrica
Sistema de archivos Métricas de Amazon FSx for Lustre: CloudWatch

Monitorización con Amazon CloudWatch.

Amazon FSx para Lustre