Informes de uso para la atribución de costos en SageMaker HyperPod - Amazon SageMaker AI

Informes de uso para la atribución de costos en SageMaker HyperPod

Los informes de uso en los clústeres de SageMaker HyperPod orquestados por EKS proporcionan una visibilidad detallada del consumo de recursos de computación. Esta capacidad permite a las organizaciones implementar una atribución de costos transparente al asignar los costos de los clústeres a los equipos, proyectos o departamentos en función del uso real. Al hacer un seguimiento de métricas como las horas de GPU/CPU y el uso de Neuron Core (recopiladas tanto en agregados en el equipo como desglosados por tareas específicas), los informes de uso complementan la funcionalidad de gobernanza de tareas de HyperPod y garantizan una distribución justa de los costos en los clústeres compartidos entre varios inquilinos mediante:

  • La eliminación de las conjeturas a la hora de asignar los costos

  • La vinculación directa entre los gastos y el consumo de los recursos de computación medible

  • El cumplimiento de la responsabilidad basada en el uso en entornos de infraestructura compartida

Requisitos previos

Para esta capacidad:

  • Necesita:

    • Un entorno de SageMaker HyperPod activo con un clúster orquestado por EKS en ejecución.

    • (Se recomienda encarecidamente) La gobernanza de tareas debe estar configurada con cuotas de computación y reglas de prioridad. Para obtener instrucciones de configuración, consulte Configuración de la gobernanza de tareas.

  • Debe conocer estos conceptos básicos:

    • Cuota de computación asignada: recursos reservados para un equipo en función de las cuotas predefinidas en sus políticas de gobernanza de tareas. Se trata de una capacidad garantizada para sus cargas de trabajo.

    • Computación prestada: recursos inactivos del grupo de clústeres compartido que los equipos pueden utilizar temporalmente más allá de la cuota asignada. La computación prestada se asigna de forma dinámica en función de las reglas de prioridad de las políticas de gobernanza de tareas y de la disponibilidad de los recursos no utilizados.

    • Uso de los recursos de computación: medición de los recursos (horas de GPU, CPU y Neuron Core) consumidos por un equipo, que se registra de la siguiente manera:

      • Utilización asignada: uso dentro de la cuota del equipo.

      • Utilización prestada: uso más allá de la cuota, que se extrae del grupo compartido.

    • Atribución de costos: proceso de asignar los costos del clúster a los equipos en función de su uso de recursos de computación real, incluidos los recursos consumidos dentro de su cuota predefinida y los recursos utilizados temporalmente del grupo de clústeres compartido más allá de su cuota.

Tipos de informe

Los informes de uso de HyperPod proporcionan un grado de detalle operativo variable:

  • Los informes de resumen muestran el uso de recursos de computación en toda la organización, pues suma el total de horas de GPU/CPU/Neuron Core por equipo (espacio de nombres) y distinguen entre el uso normal (recursos procedentes de la cuota asignada a un equipo) y los recursos de computación prestados (exceso de capacidad procedente de los grupos compartidos).

  • Los informes detallados ofrecen desgloses de tareas por equipo y registran las horas de computación exactas dedicadas a ejecutar tareas específicas, incluidas las tareas antepuestas, los patrones de uso por hora y las asignaciones específicas de espacios de nombres.

importante

Los informes de uso de HyperPod rastrean el uso de los recursos de computación en todos los espacios de nombres de Kubernetes de un clúster, incluidos los administrados por la Gobernanza de tareas, los espacios de nombres predeterminados y los espacios de nombres creados fuera de la Gobernanza de tareas (por ejemplo, mediante llamadas directas a la API de Kubernetes o a herramientas externas). Esta supervisión de la infraestructura garantiza la responsabilidad integral basada en el uso, lo que evita brechas en la atribución de costos de los clústeres compartidos, independientemente de cómo se administren los espacios de nombres.

Formatos e intervalos de tiempo de los informes

Al utilizar el script de Python incluido en Generación de informes, los administradores pueden generar informes de uso bajo demanda en formatos CSV o PDF y seleccionar intervalos de tiempo que van desde instantáneas diarias hasta ventanas de datos históricos de 180 días (6 meses).

nota

Al definir la infraestructura de los informes, puede configurar una ventana de datos históricos que se extienda más allá del máximo predeterminado de 180 días. Para obtener más información sobre la configuración del período de retención de datos, consulte Install Usage Report Infrastructure using CloudFormation.

Casos de uso ilustrativos

Esta capacidad aborda escenarios críticos en entornos de IA/ML de varios inquilinos, como:

  1. Asignación de costos para clústeres compartidos: un administrador gestiona un clúster de HyperPod compartido por 20 equipos que entrenan modelos de IA generativa. Emplea un informe de uso de resumen para analizar el uso diario de la GPU durante 180 días y descubre que el equipo A ha consumido 200 horas de GPU de un tipo de instancia específico: 170 de la cuota asignada y 30 de los recursos de computación prestados. El administrador factura al equipo A en función del uso informado.

  2. Auditoría y resolución de conflictos: un equipo de finanzas cuestiona la precisión de la atribución de costos y cita inconsistencias. El administrador puede exportar un informe detallado por tarea para auditar las discrepancias. Al hacer referencias cruzadas entre marcas horarias, tipos de instancias y trabajos antepuestos dentro del espacio de nombres del equipo, el informe concilia de forma clara los datos de uso controvertidos.