Ejecución de tareas en SageMaker HyperPod clústeres orquestados por Amazon EKS

En los siguientes temas, se proporcionan procedimientos y ejemplos de acceso a nodos de procesamiento y ejecución de cargas de trabajo de aprendizaje automático en SageMaker HyperPod clústeres aprovisionados orquestados con Amazon EKS. En función de cómo haya configurado el entorno de su HyperPod clúster, hay muchas maneras de ejecutar cargas de trabajo de aprendizaje automático en los clústeres. HyperPod

nota

Al ejecutar trabajos a través de la SageMaker HyperPod CLI o kubectl, HyperPod puede realizar un seguimiento del uso del procesamiento (horas de GPU/CPU) en todos los espacios de nombres (equipos). Estas métricas impulsan los informes de uso, que proporcionan:

Visibilidad del consumo de recursos asignados frente a prestados
Uso de los recursos de los equipos para la auditoría (hasta 180 días)
Atribución de costos alineada con las políticas de gobernanza de tareas

Para utilizar los informes de uso, debe instalar la infraestructura de informes de uso. Recomendamos encarecidamente configurar la Gobernanza de tareas para forzar las cuotas de computación y permitir una atribución detallada de los costos.

Para obtener más información sobre cómo configurar y generar informes de uso, consulta Cómo informar sobre el uso de la informática en. HyperPod

sugerencia

Para obtener una experiencia práctica y orientación sobre cómo configurar y usar un SageMaker HyperPod clúster organizado con Amazon EKS, le recomendamos que asista a este taller de Amazon EKS Support. SageMaker HyperPod

Los usuarios científicos de datos pueden entrenar modelos fundamentales utilizando el conjunto de clústeres de EKS como orquestador del clúster. SageMaker HyperPod Los científicos utilizan la SageMaker HyperPod CLI y los kubectl comandos nativos para encontrar SageMaker HyperPod los clústeres disponibles, enviar trabajos de formación (pods) y gestionar sus cargas de trabajo. La SageMaker HyperPod CLI permite el envío de trabajos mediante un archivo de esquema de trabajo de formación y proporciona capacidades para la publicación, descripción, cancelación y ejecución de trabajos. Los científicos pueden usar Kubeflow Training Operator de acuerdo con las cuotas de cómputo gestionadas por la SageMaker IA y gestionadas por HyperPod la IA MLflow para gestionar los experimentos de aprendizaje automático y las sesiones de formación.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Implemente un JumpStart modelo

Instalación de la HyperPod CLI