Observabilidad de clústeres y tareas
Existen dos opciones para supervisar los clústeres de SageMaker HyperPod:
El complemento de observabilidad de SageMaker HyperPod: SageMaker HyperPod proporciona un panel completo y listo para usar que le brinda información sobre las tareas de desarrollo del modelo fundacional (FM) y los recursos del clúster. Esta solución de observabilidad unificada publica automáticamente métricas clave en Amazon Managed Service para Prometheus y las muestra en los paneles de Amazon Managed Grafana. Los paneles están optimizados específicamente para el desarrollo del FM y abarcan en profundidad el estado del hardware, la utilización de los recursos y el rendimiento de las tareas. Con este complemento, puede consolidar los datos de estado y rendimiento de NVIDIA DCGM, los exportadores de nodos de Kubernetes por instancia, el Elastic Fabric Adapter, los sistemas de archivos integrados, las API de Kubernetes, Kueue y los operadores de tareas de SageMaker.
Información de Amazon CloudWatch: Amazon CloudWatch recopila métricas de recursos de computación, como, por ejemplo, la CPU, la memoria, el disco y la red. Información de contenedores también proporciona información de diagnóstico, como, por ejemplo, errores de reinicio de contenedores, para ayudarlo a aislar problemas y solucionarlos rápidamente. También puede establecer alarmas de CloudWatch en las métricas que recopila Información de contenedores.