Métricas de entrenamiento Métricas de inferencia Métricas de gobernanza de tareas Métricas de escalado Métricas de clúster Métricas de la instancia Métricas de computación acelerada Métricas de red Métricas del sistema de archivos

SageMaker HyperPod métricas de clúster

Amazon SageMaker HyperPod (SageMaker HyperPod) publica varias métricas en 9 categorías distintas en tu espacio de trabajo de Amazon Managed Service for Prometheus. No todas las métricas están activadas de forma predeterminada ni se muestran en el espacio de trabajo de Amazon Managed Grafana. En la siguiente tabla se muestra qué métricas están activas de forma predeterminada al instalar el complemento de observabilidad, qué categorías tienen métricas adicionales que se pueden activar para obtener información de clúster más detallada y dónde aparecen en el espacio de trabajo de Amazon Managed Grafana.

Categoría métrica	¿Activada de forma predeterminada?	¿Hay métricas avanzadas adicionales disponibles?	¿En qué paneles de Grafana está disponible?
Métricas de entrenamiento	Sí	Sí	Formación
Métricas de inferencia	Sí	No	Inferencia
Métricas de gobernanza de tareas	No	Sí	Ninguna. Consulte el espacio de trabajo de Amazon Managed Service para Prometheus para crear su propio panel.
Métricas de escalado	No	Sí	Ninguna. Consulte el espacio de trabajo de Amazon Managed Service para Prometheus para crear su propio panel.
Métricas de clúster	Sí	Sí	Clúster
Métricas de la instancia	Sí	Sí	Clúster
Métricas de computación acelerada	Sí	Sí	Tarea, clúster
Métricas de red	No	Sí	Clúster
Sistema de archivos	Sí	No	Sistema de archivos

En las siguientes tablas se describen las métricas disponibles para monitorizar su SageMaker HyperPod clúster, organizadas por categoría.

Métricas de entrenamiento

Utilice estas métricas para realizar un seguimiento del rendimiento de las tareas de entrenamiento ejecutadas en el SageMaker HyperPod clúster.

Nombre o tipo de métrica	Description (Descripción)	¿Activada de forma predeterminada?	Origen de la métrica
Métricas de Kubeflow	https://github.com/kubeflow/entrenador	Sí	Kubeflow
Métricas del pod de Kubernetes	https://github.com/kubernetes/kube-state-metrics	Sí	Kubernetes
`training_uptime_percentage`	Porcentaje del tiempo de entrenamiento del tamaño total de la ventana	No	SageMaker HyperPod operador de entrenamiento
`training_manual_recovery_count`	Número total de reinicios manuales realizados en el trabajo	No	SageMaker HyperPod operador de formación
`training_manual_downtime_ms`	Tiempo total en milisegundos durante el cual el trabajo ha estado inactivo debido a intervenciones manuales	No	SageMaker HyperPod operador de formación
`training_auto_recovery_count`	Número total de recuperaciones automáticas	No	SageMaker HyperPod operador de formación
`training_auto_recovery_downtime`	Tiempo total de sobrecarga de la infraestructura en milisegundos durante la recuperación de errores	No	SageMaker HyperPod operador de formación
`training_fault_count`	Número total de errores detectados durante el entrenamiento	No	SageMaker HyperPod operador de formación
`training_fault_type_count`	Distribución de los fallos por tipo	No	SageMaker HyperPod operador de formación
`training_fault_recovery_time_ms`	Tiempo de recuperación en milisegundos para cada tipo de fallo	No	SageMaker HyperPod operador de formación
`training_time_ms`	Tiempo total en milisegundos dedicado al entrenamiento real	No	SageMaker HyperPod operador de formación

Métricas de inferencia

Utilice estas métricas para realizar un seguimiento del rendimiento de las tareas de inferencia en el SageMaker HyperPod clúster.

Nombre o tipo de métrica	Description (Descripción)	¿Activada de forma predeterminada?	Origen de la métrica
`model_invocations_total`	Número total de solicitudes de invocación realizadas al modelo	Sí	SageMaker HyperPod operador de inferencia
`model_errors_total`	Número total de errores al invocar el modelo	Sí	SageMaker HyperPod operador de inferencia
`model_concurrent_requests`	Solicitudes al modelo simultáneas activas	Sí	SageMaker HyperPod operador de inferencia
`model_latency_milliseconds`	Latencia de invocación del modelo en milisegundos	Sí	SageMaker HyperPod operador de inferencia
`model_ttfb_milliseconds`	Latencia del modelo con respecto al primer byte en milisegundos	Sí	SageMaker HyperPod operador de inferencia
TGI	Estas métricas se pueden utilizar para supervisar el rendimiento de TGI, escalar automáticamente la implementación y ayudar a identificar los cuellos de botella. Para obtener una lista detallada de las métricas, consulte https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md.	Sí	Contenedor de modelos
LMI	Estas métricas se pueden utilizar para supervisar el rendimiento de LMI y ayudar a identificar los cuellos de botella. Para obtener una lista detallada de las métricas, consulta https://github.com/deepjavalibrary/djl - .md. serving/blob/master/prometheus/README	Sí	Contenedor de modelos

Métricas de gobernanza de tareas

Utilice estas métricas para supervisar la gobernanza de las tareas y la asignación de recursos en el SageMaker HyperPod clúster.

Nombre o tipo de métrica	Description (Descripción)	¿Activada de forma predeterminada?	Origen de la métrica
Kueue	Consulte https://kueue.sigs.k8s. io/docs/reference/metrics/.	No	Kueue

Métricas de escalado

Usa estas métricas para monitorear el comportamiento y el rendimiento del autoscalamiento en el SageMaker HyperPod clúster.

Nombre o tipo de métrica	Description (Descripción)	¿Activada de forma predeterminada?	Origen de la métrica
Métricas del KEDA Operator	Consulte https://keda. sh/docs/2.17/integrations/prometheus/#operator.	No	Escalado automático basado en eventos de Kubernetes (KEDA)
Métricas de KEDA Webhooks	Consulte https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks.	No	Escalado automático basado en eventos de Kubernetes (KEDA)
Métricas del servidor de KEDA Metrics	Consulte https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server.	No	Escalado automático basado en eventos de Kubernetes (KEDA)

Métricas de clúster

Utilice estas métricas para supervisar el estado general del clúster y la asignación de recursos.

Nombre o tipo de métrica	Description (Descripción)	¿Activada de forma predeterminada?	Origen de la métrica
Estado del clúster	Métricas del servidor de la API de Kubernetes. Consulte https://kubernetes. io/docs/reference/instrumentation/metrics/.	Sí	Kubernetes
Kubestate	Consulte https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources.	Limitado	Kubernetes
KubeState Avanzado	Consulte https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources.	No	Kubernetes

Métricas de la instancia

Utilice estas métricas para supervisar el rendimiento y el estado de las instancias individuales.

Nombre o tipo de métrica	Description (Descripción)	¿Activada de forma predeterminada?	Origen de la métrica
Métricas de nodos	¿Ves https://github.com/prometheus/node_exporter? readme-ov-filetab= # enabled-by-default.	Sí	Kubernetes
Métricas de contenedores	Métricas de contenedores expuestas por Cadvisor. Consulte https://github.com/google/cadvisor.	Sí	Kubernetes

Métricas de computación acelerada

Utilice estas métricas para supervisar el rendimiento, el estado y la utilización de los dispositivos de computación acelerada individuales de su clúster.

nota

Cuando la partición de GPU con MIG (GPU de instancias múltiples) está habilitada en el clúster, las métricas de DCGM proporcionan automáticamente una granularidad a nivel de partición para monitorear instancias MIG individuales. Cada partición MIG se expone como un dispositivo de GPU independiente con sus propias métricas de temperatura, potencia, uso de memoria y actividad informática. Esto le permite realizar un seguimiento del uso y el estado de los recursos de cada partición de la GPU de forma independiente, lo que permite una supervisión precisa de las cargas de trabajo que se ejecutan en recursos fraccionados de la GPU. Para obtener más información sobre la configuración de la partición de la GPU, consulte. Uso de particiones de GPU en Amazon SageMaker HyperPod

Nombre o tipo de métrica	Description (Descripción)	¿Activada de forma predeterminada?	Origen de la métrica
NVIDIA GPU	Métricas de DCGM. Consulte https://github.com/NVIDIA/dcgm- -metrics-included.csv. exporter/blob/main/etc/dcp	Limitado	NVIDIA Data Center GPU Manager (DCGM)
NVIDIA GPU (avanzado)	Métricas de DCGM que se comentan en el siguiente archivo CSV: https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp	No	NVIDIA Data Center GPU Manager (DCGM)
AWSTrainio	Métricas de Neuron. Consulte https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- .html# monitor-user-guide. neuron-monitor-nc-counters	No	AWSMonitor de neuronas

Métricas de red

Utilice estas métricas para supervisar el rendimiento y el estado de los Elastic Fabric Adapter (EFA) de su clúster.

Nombre o tipo de métrica	Description (Descripción)	¿Activada de forma predeterminada?	Origen de la métrica
EFA	Véase https://github.com/aws-samples/awsome-distributed-training//blob/main/4.validation_and_observability/3.efa-node-exporter/README.md.	No	Elastic Fabric Adapter

Métricas del sistema de archivos

Nombre o tipo de métrica	Description (Descripción)	¿Activada de forma predeterminada?	Origen de la métrica
Sistema de archivos	Métricas de Amazon FSx for Lustre: CloudWatch Monitorización con Amazon CloudWatch.	Sí	Amazon FSx para Lustre

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Métricas personalizadas

Alertas preconfiguradas