Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Paneles de SageMaker HyperPod observabilidad de Amazon
En este tema se describe cómo ver los paneles de métricas de tus clústeres de Amazon SageMaker HyperPod (SageMaker HyperPod) y cómo añadir nuevos usuarios a un panel. En este tema también se describen los distintos tipos de panel.
Acceso a paneles
Para ver las métricas de su SageMaker HyperPod clúster en Amazon Managed Grafana, lleve a cabo los siguientes pasos:
Abre la consola Amazon SageMaker AI en https://console.aws.amazon.com/sagemaker/
. -
Vaya a la página de detalles de su clúster.
-
En la pestaña Panel de control, localice la sección HyperPod Observabilidad y elija Abrir panel en Grafana.
Adición de nuevos usuarios a un espacio de trabajo de Amazon Managed Grafana
Para obtener más información sobre cómo añadir usuarios a un espacio de trabajo de Amazon Managed Grafana, consulte Use AWS IAM Identity Center with your Amazon Managed Grafana workspace en la Guía del usuario de Amazon Managed Grafana.
Paneles de observabilidad
El complemento de SageMaker HyperPod observabilidad proporciona cinco paneles interconectados en tu espacio de trabajo predeterminado de Amazon Managed Grafana. Cada panel proporciona información detallada sobre los diferentes recursos y tareas de los clústeres para distintos usuarios, como científicos de datos, ingenieros de machine learning y administradores.
Panel de tareas
El panel de tareas proporciona una supervisión y visualización exhaustivas de las métricas de utilización de los recursos para las tareas. SageMaker HyperPod El panel principal muestra una tabla detallada que agrupa el uso de los recursos por tareas principales y muestra el uso de la CPU, la GPU y la memoria en los distintos pods. Los gráficos interactivos de series temporales realizan un seguimiento del uso de la CPU, el consumo de memoria del sistema, los porcentajes de uso de la GPU y el uso de la memoria de la GPU en determinados pods, lo que le permite supervisar las tendencias de rendimiento a lo largo del tiempo. El panel incluye potentes funciones de filtrado a través de variables como el nombre del clúster, el espacio de nombres, el tipo de tarea y los pods específicos, lo que facilita el análisis detallado de cargas de trabajo específicas. Esta solución de monitoreo es esencial para optimizar la asignación de recursos y mantener el rendimiento de las cargas de trabajo de aprendizaje automático. SageMaker HyperPod
Panel de entrenamiento
El panel de entrenamiento proporciona un seguimiento exhaustivo de las métricas de estado, fiabilidad y administrado de fallos de los trabajos de entrenamiento. El panel incluye indicadores clave de rendimiento, como el recuento de tareas creadas, las tasas de éxito y los porcentajes de tiempo de actividad, además del seguimiento detallado de los reinicios automáticos y manuales. Además, muestra con detalle los patrones de fallos con gráficos circulares y mapas térmicos que desglosan los incidentes por tipo y latencia de remediación, lo que permite identificar los problemas recurrentes y optimizar la fiabilidad de las tareas. Esta interfaz incluye supervisión en tiempo real de métricas críticas, como los tiempos de recuperación del sistema y las latencias de detección de fallos, lo que la convierte en una herramienta esencial para mantener una alta disponibilidad de las cargas de trabajo de entrenamiento. Además, la ventana de seguimiento de 24 horas del panel proporciona un contexto histórico para analizar las tendencias y los patrones del rendimiento de los trabajos de entrenamiento, lo que ayuda a los equipos a abordar de forma proactiva los posibles problemas antes de que afecten a las cargas de trabajo de producción.
Panel de inferencia
El panel de inferencia proporciona una supervisión exhaustiva del rendimiento de la implementación del modelo y las métricas de estado en múltiples dimensiones. Incluye una descripción detallada de las implementaciones activas, la supervisión en tiempo real de las tasas de solicitudes, los porcentajes de éxito y las métricas de latencia, lo que le permite realizar un seguimiento del rendimiento del servicio de modelos e identificar posibles cuellos de botella. El panel incluye paneles especializados tanto de las métricas de inferencia generales como de las métricas específicas de token de los modelos de lenguaje, como el tiempo transcurrido hasta el primer token (TTFT) y el rendimiento del token, por lo que es especialmente importante para supervisar las implementaciones de modelos de lenguaje de gran tamaño. Además, proporciona información sobre la infraestructura mediante el seguimiento de la asignación de nodos y pods, al tiempo que ofrece funciones detalladas de análisis de errores para ayudar a mantener una alta disponibilidad y un alto rendimiento de las cargas de trabajo de inferencia.
Panel del clúster
El panel de control del clúster proporciona una visión integral del estado y el rendimiento del clúster, y ofrece visibilidad en tiempo real de los recursos de cómputo, memoria, red y almacenamiento en todo su entorno Amazon SageMaker HyperPod (SageMaker HyperPod). Puede ver, de un vistazo, las métricas más importantes, como el total de instancias, el uso de la GPU, el uso de la memoria y el rendimiento de la red, a través de una interfaz intuitiva que actualiza automáticamente los datos cada pocos segundos. El panel está organizado en secciones lógicas: comienza con una descripción general del clúster que muestra las métricas clave, así como el porcentaje de instancias en buen estado y el recuento total de recursos, seguida de secciones detalladas sobre el rendimiento de la GPU, el uso de la memoria, las estadísticas de red y las métricas de almacenamiento. Cada sección incluye gráficos y paneles interactivos que le permiten desglosar métricas específicas, con intervalos de tiempo personalizables y opciones de filtrado por nombre de clúster, instancia o ID de GPU.
Panel del sistema de archivos
El panel del sistema de archivos proporciona una visibilidad completa de las métricas de rendimiento y estado del sistema de archivos (Amazon FSx for Lustre). El panel muestra las métricas de almacenamiento fundamentales, como la capacidad libre, los ahorros en la deduplicación, la CPU/memory utilización, las IOPS del disco, el rendimiento y las conexiones de los clientes en múltiples visualizaciones. Le permite monitorear tanto los indicadores de rendimiento a nivel del sistema, como el uso de la CPU y la memoria, como las métricas específicas del almacenamiento, como las operaciones y los patrones de uso del disco. read/write La interfaz incluye funciones de supervisión de alertas y gráficos detallados de series temporales para hacer un seguimiento de las tendencias del rendimiento a lo largo del tiempo, por lo que es muy importante para el mantenimiento proactivo y la planificación de la capacidad. Además, gracias a su amplia cobertura de métricas, el panel ayuda a identificar posibles cuellos de botella, a optimizar el rendimiento del almacenamiento y a garantizar un funcionamiento fiable del sistema de archivos para las cargas de trabajo. SageMaker HyperPod
Panel de particiones de GPU
Para monitorear las métricas específicas de las particiones de la GPU cuando se utilizan configuraciones de GPU de varias instancias (MIG), debe instalar o actualizar a la última versión del complemento Observability. SageMaker HyperPod Este complemento proporciona capacidades de monitoreo integrales, que incluyen métricas específicas de MIG, como el recuento de particiones, el uso de memoria y el uso de cómputo por partición de GPU.
Si ya tienes instalado SageMaker HyperPod Observability pero necesitas compatibilidad con las métricas MIG, solo tienes que actualizar el complemento a la última versión. Este proceso no es disruptivo y mantiene la configuración de monitoreo existente.
SageMaker HyperPod expone automáticamente las métricas específicas de MIG, que incluyen:
-
nvidia_mig_instance_count: Número de instancias MIG por perfil -
nvidia_mig_memory_usage: Utilización de memoria por instancia MIG -
nvidia_mig_compute_utilization: Utilización de cómputo por instancia MIG