Ejecución de trabajos en clústeres de SageMaker HyperPod orquestados por Amazon EKS
En los siguientes temas se proporcionan procedimientos y ejemplos de acceso a nodos de computación y ejecución de cargas de trabajo de ML en clústeres de SageMaker HyperPod aprovisionados y orquestados con Amazon EKS. En función de cómo haya configurado el entorno del clúster de HyperPod, existen muchas maneras de ejecutar las cargas de trabajo de ML en los clústeres de HyperPod.
nota
Al ejecutar trabajos mediante la CLI de SageMaker HyperPod o kubectl, HyperPod puede realizar un seguimiento del uso de la computación (horas de GPU/CPU) en todos los espacios de nombres (equipos). Estas métricas impulsan los informes de uso, que proporcionan:
-
Visibilidad del consumo de recursos asignados frente a prestados
-
Uso de los recursos de los equipos para la auditoría (hasta 180 días)
-
Atribución de costos alineada con las políticas de gobernanza de tareas
Para utilizar los informes de uso, debe instalar la infraestructura de informes de uso. Recomendamos encarecidamente configurar la Gobernanza de tareas para forzar las cuotas de computación y permitir una atribución detallada de los costos.
Para obtener más información sobre cómo configurar y generar informes de uso, consulte Informes sobre el uso de computación en HyperPod.
sugerencia
Para obtener una experiencia práctica y orientación sobre cómo configurar y utilizar un clúster de SageMaker HyperPod orquestado con Amazon EKS, le recomendamos que lleve a cabo el taller Amazon EKS Support in SageMaker HyperPod
Los usuarios científicos de datos pueden entrenar modelos fundacionales mediante el conjunto de clústeres de EKS como orquestador del clúster de SageMaker HyperPod. Los científicos utilizan la CLI de SageMaker HyperPodkubectl para encontrar los clústeres disponibles de SageMaker HyperPod, enviar trabajos de entrenamiento (pods) y administrar las cargas de trabajo. La CLI de SageMaker HyperPod permite el envío de trabajos mediante un archivo de esquema de trabajos de entrenamiento y proporciona funciones para la publicación, descripción, cancelación y ejecución de trabajos. Los científicos pueden utilizar Kubeflow Training Operator