Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
SageMaker HyperPodObservabilidad de Amazon con Grafana gestionada por Amazon y Amazon Managed Service para Prometheus
Amazon SageMaker HyperPod (SageMaker HyperPod) proporciona un out-of-the-box panel de control completo que le proporciona información sobre las tareas de desarrollo del modelo básico (FM) y los recursos del clúster. Esta solución de observabilidad unificada publica automáticamente métricas clave en Amazon Managed Service para Prometheus y las muestra en los paneles de Amazon Managed Grafana. Los paneles están optimizados específicamente para el desarrollo del FM y abarcan en profundidad el estado del hardware, la utilización de los recursos y el rendimiento de las tareas. Con este complemento, puede consolidar los datos de estado y rendimiento de NVIDIA DCGM, los exportadores de nodos de Kubernetes a nivel de instancia, el adaptador Elastic Fabric, los sistemas de archivos integrados, Kubernetes, APIs Kueue y los operadores de tareas. SageMaker HyperPod
Temas
Configuración del complemento SageMaker HyperPod de observabilidad
Explorando las métricas de los SageMaker HyperPod clústeres en Amazon Managed Grafana
Personalización de las métricas, los paneles y las alertas del SageMaker HyperPod clúster
Solución de problemas con el complemento de SageMaker HyperPod observabilidad de Amazon