Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Uso del operador de entrenamiento HyperPod
El operador de SageMaker HyperPod formación de Amazon te ayuda a acelerar el desarrollo de modelos de IA generativa mediante la gestión eficiente de la formación distribuida en grandes clústeres de GPU. Presenta capacidades inteligentes de recuperación de errores, detección de tareas pendientes y administración de procesos que minimizan las interrupciones en el entrenamiento y reducen los costos. A diferencia de la infraestructura de entrenamiento tradicional, que requiere que el trabajo se reinicie por completo cuando se producen fallos, este operador implementa la recuperación del proceso quirúrgico para que sus trabajos de entrenamiento se desarrollen sin problemas.
El operador también utiliza las funciones de monitoreo y observabilidad HyperPod del estado, lo que proporciona visibilidad en tiempo real de la ejecución de la capacitación y monitorea automáticamente métricas críticas, como los picos de pérdidas y la degradación del rendimiento. Puede definir las políticas de recuperación mediante sencillas configuraciones de YAML sin cambios en el código, lo que le permitirá responder rápidamente a estados de entrenamiento irrecuperables y recuperarse de ellos. Estas capacidades de supervisión y recuperación funcionan en conjunto para mantener un rendimiento de entrenamiento óptimo y, al mismo tiempo, minimizar los gastos operativos.
Si bien no se requiere Kueue para este operador de entrenamiento, el administrador del clúster puede instalarlo y configurarlo para ampliar las capacidades de programación de trabajos. Para obtener más información, consulte la documentación oficial de Kueue
nota
Para utilizar el operador de formación, debe utilizar la última versión de la HyperPod AMI. Para actualizar, utilice la operación UpdateClusterSoftwareAPI. Si utilizas la gobernanza de HyperPod tareas, también debe ser la versión más reciente.
Versiones compatibles
El operador de HyperPod formación solo funciona con versiones específicas de Kubernetes, Kueue y. HyperPod Consulte la siguiente lista para ver todas las versiones compatibles.
-
Versiones de Kubernetes compatibles: 1.28, 1.29, 1.30, 1.31, 1.32 y 1.33
-
La última versión de HyperPod AMI. Para actualizar a la versión más reciente de la AMI, utilice la UpdateClusterSoftwareAPI.
nota
Recopilamos ciertas métricas operativas rutinarias agregadas y anónimas para proporcionar la disponibilidad esencial de los servicios. La creación de estas métricas está totalmente automatizada y no implica una revisión humana de la carga de trabajo de formación del modelo subyacente. Estas métricas se refieren a las operaciones de un trabajo, a la gestión de los recursos y a la funcionalidad esencial del servicio.