View a markdown version of this page

SageMaker HyperPod Observabilidad de Amazon con Amazon Managed Grafana y Amazon Managed Service para Prometheus - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker HyperPod Observabilidad de Amazon con Amazon Managed Grafana y Amazon Managed Service para Prometheus

Amazon SageMaker HyperPod (SageMaker HyperPod) proporciona un out-of-the-box panel de control completo que le proporciona información sobre las tareas de desarrollo del modelo básico (FM) y los recursos del clúster. Esta solución de observabilidad unificada publica automáticamente métricas clave en Amazon Managed Service para Prometheus y las muestra en los paneles de Amazon Managed Grafana. Los paneles están optimizados específicamente para el desarrollo del FM y abarcan en profundidad el estado del hardware, la utilización de los recursos y el rendimiento de las tareas. Con este complemento, puede consolidar los datos de estado y rendimiento de NVIDIA DCGM, los exportadores de nodos de Kubernetes a nivel de instancia, el adaptador Elastic Fabric, los sistemas de archivos integrados, Kubernetes, APIs Kueue y los operadores de tareas. SageMaker HyperPod

Compatibilidad con grupos de instancias restringidos (RIG)

El complemento de observabilidad también admite clústeres que contienen grupos de instancias restringidos. En los clústeres de RIG, el complemento adapta automáticamente su estrategia de implementación para cumplir con las restricciones de seguridad y aislamiento de la red de los nodos restringidos. DaemonSet los componentes (exportador de nodos, exportador de DCGM, exportador EFA, monitor Neuron y colector de nodos) se ejecutan tanto en nodos estándar como restringidos. Los componentes de despliegue (recopilador central, Kube State Metrics y Training Metrics Agent) se programan con una lógica que reconoce los límites para respetar el aislamiento de la red entre los grupos de instancias. La recopilación de registros de contenedores con Fluent Bit no está disponible en los nodos restringidos.

Para obtener información sobre cómo configurar el complemento en clústeres con grupos de instancias restringidos, consulteConfiguración del complemento de SageMaker HyperPod observabilidad.