Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
SageMaker HyperPod métricas de clúster
Amazon SageMaker HyperPod (SageMaker HyperPod) publica varias métricas en 9 categorías distintas en tu espacio de trabajo de Amazon Managed Service for Prometheus. No todas las métricas están activadas de forma predeterminada ni se muestran en el espacio de trabajo de Amazon Managed Grafana. En la siguiente tabla se muestra qué métricas están activas de forma predeterminada al instalar el complemento de observabilidad, qué categorías tienen métricas adicionales que se pueden activar para obtener información de clúster más detallada y dónde aparecen en el espacio de trabajo de Amazon Managed Grafana.
| Categoría métrica | ¿Activada de forma predeterminada? | ¿Hay métricas avanzadas adicionales disponibles? | ¿En qué paneles de Grafana está disponible? |
|---|---|---|---|
| Métricas de entrenamiento | Sí | Sí | Formación |
| Métricas de inferencia | Sí | No | Inferencia |
| Métricas de gobernanza de tareas | No | Sí | Ninguna. Consulte el espacio de trabajo de Amazon Managed Service para Prometheus para crear su propio panel. |
| Métricas de escalado | No | Sí | Ninguna. Consulte el espacio de trabajo de Amazon Managed Service para Prometheus para crear su propio panel. |
| Métricas de clúster | Sí | Sí | Clúster |
| Métricas de la instancia | Sí | Sí | Clúster |
| Métricas de computación acelerada | Sí | Sí | Tarea, clúster |
| Métricas de red | No | Sí | Clúster |
| Sistema de archivos | Sí | No | Sistema de archivos |
En las siguientes tablas se describen las métricas disponibles para monitorizar su SageMaker HyperPod clúster, organizadas por categoría.
Métricas de entrenamiento
Utilice estas métricas para realizar un seguimiento del rendimiento de las tareas de entrenamiento ejecutadas en el SageMaker HyperPod clúster.
| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica |
|---|---|---|---|
| Métricas de Kubeflow | https://github.com/kubeflow/entrenador |
Sí | Kubeflow |
| Métricas del pod de Kubernetes | https://github.com/kubernetes/kube-state-metrics |
Sí | Kubernetes |
training_uptime_percentage |
Porcentaje del tiempo de entrenamiento del tamaño total de la ventana | No | SageMaker HyperPod operador de entrenamiento |
training_manual_recovery_count |
Número total de reinicios manuales realizados en el trabajo | No | SageMaker HyperPod operador de formación |
training_manual_downtime_ms |
Tiempo total en milisegundos durante el cual el trabajo ha estado inactivo debido a intervenciones manuales | No | SageMaker HyperPod operador de formación |
training_auto_recovery_count |
Número total de recuperaciones automáticas | No | SageMaker HyperPod operador de formación |
training_auto_recovery_downtime |
Tiempo total de sobrecarga de la infraestructura en milisegundos durante la recuperación de errores | No | SageMaker HyperPod operador de formación |
training_fault_count |
Número total de errores detectados durante el entrenamiento | No | SageMaker HyperPod operador de formación |
training_fault_type_count |
Distribución de los fallos por tipo | No | SageMaker HyperPod operador de formación |
training_fault_recovery_time_ms |
Tiempo de recuperación en milisegundos para cada tipo de fallo | No | SageMaker HyperPod operador de formación |
training_time_ms |
Tiempo total en milisegundos dedicado al entrenamiento real | No | SageMaker HyperPod operador de formación |
Métricas de inferencia
Utilice estas métricas para realizar un seguimiento del rendimiento de las tareas de inferencia en el SageMaker HyperPod clúster.
| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica |
|---|---|---|---|
model_invocations_total |
Número total de solicitudes de invocación realizadas al modelo | Sí | SageMaker HyperPod operador de inferencia |
model_errors_total |
Número total de errores al invocar el modelo | Sí | SageMaker HyperPod operador de inferencia |
model_concurrent_requests |
Solicitudes al modelo simultáneas activas | Sí | SageMaker HyperPod operador de inferencia |
model_latency_milliseconds |
Latencia de invocación del modelo en milisegundos | Sí | SageMaker HyperPod operador de inferencia |
model_ttfb_milliseconds |
Latencia del modelo con respecto al primer byte en milisegundos | Sí | SageMaker HyperPod operador de inferencia |
| TGI | Estas métricas se pueden utilizar para supervisar el rendimiento de TGI, escalar automáticamente la implementación y ayudar a identificar los cuellos de botella. Para obtener una lista detallada de las métricas, consulte https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. |
Sí | Contenedor de modelos |
| LMI | Estas métricas se pueden utilizar para supervisar el rendimiento de LMI y ayudar a identificar los cuellos de botella. Para obtener una lista detallada de las métricas, consulta https://github.com/deepjavalibrary/djl |
Sí | Contenedor de modelos |
Métricas de gobernanza de tareas
Utilice estas métricas para supervisar la gobernanza de las tareas y la asignación de recursos en el SageMaker HyperPod clúster.
| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica |
|---|---|---|---|
| Kueue | Consulte https://kueue.sigs.k8s. io/docs/reference/metrics |
No | Kueue |
Métricas de escalado
Usa estas métricas para monitorear el comportamiento y el rendimiento del autoscalamiento en el SageMaker HyperPod clúster.
| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica |
|---|---|---|---|
| Métricas del KEDA Operator | Consulte https://keda. sh/docs/2.17/integrations/prometheus/#operator |
No | Escalado automático basado en eventos de Kubernetes (KEDA) |
| Métricas de KEDA Webhooks | Consulte https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks |
No | Escalado automático basado en eventos de Kubernetes (KEDA) |
| Métricas del servidor de KEDA Metrics | Consulte https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server |
No | Escalado automático basado en eventos de Kubernetes (KEDA) |
Métricas de clúster
Utilice estas métricas para supervisar el estado general del clúster y la asignación de recursos.
| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica |
|---|---|---|---|
| Estado del clúster | Métricas del servidor de la API de Kubernetes. Consulte https://kubernetes. io/docs/reference/instrumentation/metrics |
Sí | Kubernetes |
| Kubestate | Consulte https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources |
Limitado | Kubernetes |
| KubeState Avanzado | Consulte https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources |
No | Kubernetes |
Métricas de la instancia
Utilice estas métricas para supervisar el rendimiento y el estado de las instancias individuales.
| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica |
|---|---|---|---|
| Métricas de nodos | ¿Ves https://github.com/prometheus/node_exporter? readme-ov-filetab= # enabled-by-default |
Sí | Kubernetes |
| Métricas de contenedores | Métricas de contenedores expuestas por Cadvisor. Consulte https://github.com/google/cadvisor |
Sí | Kubernetes |
Métricas de computación acelerada
Utilice estas métricas para supervisar el rendimiento, el estado y la utilización de los dispositivos de computación acelerada individuales de su clúster.
nota
Cuando la partición de GPU con MIG (GPU de instancias múltiples) está habilitada en el clúster, las métricas de DCGM proporcionan automáticamente una granularidad a nivel de partición para monitorear instancias MIG individuales. Cada partición MIG se expone como un dispositivo de GPU independiente con sus propias métricas de temperatura, potencia, uso de memoria y actividad informática. Esto le permite realizar un seguimiento del uso y el estado de los recursos de cada partición de la GPU de forma independiente, lo que permite una supervisión precisa de las cargas de trabajo que se ejecutan en recursos fraccionados de la GPU. Para obtener más información sobre la configuración de la partición de la GPU, consulte. Uso de particiones de GPU en Amazon SageMaker HyperPod
| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica |
|---|---|---|---|
| NVIDIA GPU | Métricas de DCGM. Consulte https://github.com/NVIDIA/dcgm- -metrics-included.csv. exporter/blob/main/etc/dcp |
Limitado |
NVIDIA Data Center GPU Manager (DCGM) |
|
NVIDIA GPU (avanzado) |
Métricas de DCGM que se comentan en el siguiente archivo CSV: https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp |
No |
NVIDIA Data Center GPU Manager (DCGM) |
| AWSTrainio | Métricas de Neuron. Consulte https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- .html# monitor-user-guide |
No | AWSMonitor de neuronas |
Métricas de red
Utilice estas métricas para supervisar el rendimiento y el estado de los Elastic Fabric Adapter (EFA) de su clúster.
| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica |
|---|---|---|---|
| EFA | Véase https://github.com/aws-samples/awsome-distributed-training//blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. |
No | Elastic Fabric Adapter |
Métricas del sistema de archivos
| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica |
|---|---|---|---|
| Sistema de archivos | Métricas de Amazon FSx for Lustre: CloudWatch | Sí | Amazon FSx para Lustre |