Ejecución de trabajos en clústeres de SageMaker HyperPod orquestados por Amazon EKS - Amazon SageMaker AI

Ejecución de trabajos en clústeres de SageMaker HyperPod orquestados por Amazon EKS

En los siguientes temas se proporcionan procedimientos y ejemplos de acceso a nodos de computación y ejecución de cargas de trabajo de ML en clústeres de SageMaker HyperPod aprovisionados y orquestados con Amazon EKS. En función de cómo haya configurado el entorno del clúster de HyperPod, existen muchas maneras de ejecutar las cargas de trabajo de ML en los clústeres de HyperPod.

nota

Al ejecutar trabajos mediante la CLI de SageMaker HyperPod o kubectl, HyperPod puede realizar un seguimiento del uso de la computación (horas de GPU/CPU) en todos los espacios de nombres (equipos). Estas métricas impulsan los informes de uso, que proporcionan:

  • Visibilidad del consumo de recursos asignados frente a prestados

  • Uso de los recursos de los equipos para la auditoría (hasta 180 días)

  • Atribución de costos alineada con las políticas de gobernanza de tareas

Para utilizar los informes de uso, debe instalar la infraestructura de informes de uso. Recomendamos encarecidamente configurar la Gobernanza de tareas para forzar las cuotas de computación y permitir una atribución detallada de los costos.

Para obtener más información sobre cómo configurar y generar informes de uso, consulte Informes sobre el uso de computación en HyperPod.

sugerencia

Para obtener una experiencia práctica y orientación sobre cómo configurar y utilizar un clúster de SageMaker HyperPod orquestado con Amazon EKS, le recomendamos que lleve a cabo el taller Amazon EKS Support in SageMaker HyperPod.

Los usuarios científicos de datos pueden entrenar modelos fundacionales mediante el conjunto de clústeres de EKS como orquestador del clúster de SageMaker HyperPod. Los científicos utilizan la CLI de SageMaker HyperPod y los comandos nativos kubectl para encontrar los clústeres disponibles de SageMaker HyperPod, enviar trabajos de entrenamiento (pods) y administrar las cargas de trabajo. La CLI de SageMaker HyperPod permite el envío de trabajos mediante un archivo de esquema de trabajos de entrenamiento y proporciona funciones para la publicación, descripción, cancelación y ejecución de trabajos. Los científicos pueden utilizar Kubeflow Training Operator de acuerdo con las cuotas de computación administradas por HyperPod y MLflow administrado por SageMaker AI para administrar los experimentos de ML y las ejecuciones de entrenamiento.