Report di utilizzo per l’attribuzione dei costi in SageMaker HyperPod - Amazon SageMaker AI

Report di utilizzo per l’attribuzione dei costi in SageMaker HyperPod

I report di utilizzo nei cluster orchestrati da SageMaker HyperPod EKS offrono una visibilità granulare sul consumo delle risorse di calcolo. Questa funzionalità consente alle organizzazioni di implementare un’attribuzione trasparente dei costi, allocando i costi dei cluster a team, progetti o reparti in base al loro utilizzo effettivo. Tenendo traccia delle metriche come le ore di GPU/CPU e l’utilizzo di core Neuron, rilevate sia in aggregati a livello di team che nelle ripartizioni specifiche delle attività, i report di utilizzo completano la funzionalità di governance delle attività di HyperPod, garantendo un’equa distribuzione dei costi nei cluster multi-tenant condivisi grazie a:

  • Eliminazione delle ipotesi nell’allocazione dei costi

  • Collegamento diretto delle spese al consumo misurabile delle risorse

  • Applicazione della responsabilità basata sull’utilizzo in ambienti di infrastruttura condivisi

Prerequisiti

Per visualizzare questa funzionalità:

  • Hai bisogno di:

    • Un ambiente SageMaker HyperPod attivo con un cluster orchestrato da EKS in esecuzione.

    • (Consigliato vivamente) Governance delle attività configurata con quote di calcolo e regole di priorità. Per istruzioni sulla configurazione, consulta Configurazione della governance delle attività.

  • Acquisire familiarità con questi concetti fondamentali:

    • Quota di calcolo allocata: risorse riservate a un team in base a quote predefinite nelle sue policy di governance delle attività. Si tratta della capacità garantita per i carichi di lavoro del team.

    • Risorse di calcolo prese in prestito: risorse inattive nel pool del cluster condiviso che i team possono utilizzare temporaneamente in aggiunta alla loro quota assegnata. Le risorse di calcolo prese in prestito vengono assegnate dinamicamente in base alle regole di priorità definite nelle policy di governance delle attività e alla disponibilità delle risorse inutilizzate.

    • Utilizzo del calcolo: la misurazione delle risorse (GPU, CPU, ore di core Neuron) consumate da un team, definite come:

      • Utilizzo allocato: utilizzo compreso nella quota del team.

      • Utilizzo preso in prestito: utilizzo eccedente la quota, preso dal pool condiviso.

    • Attribuzione dei costi: il processo di allocazione dei costi del cluster ai team in base all’utilizzo effettivo delle risorse di calcolo, che include sia le risorse comprese nella quota predefinita che le risorse prese temporaneamente dal pool del cluster condiviso in aggiunta alla quota allocata.

Tipi di report

I report di utilizzo di HyperPod forniscono una granularità operativa variabile:

  • I report di riepilogo forniscono una visibilità a livello dell’organizzazione sull’utilizzo del calcolo, aggregando le ore totali di GPU/CPU/core Neuron per ogni team (namespace) e distinguendo tra l’utilizzo regolare (risorse provenienti dalla quota allocata di un team) e le risorse di calcolo prese in prestito (capacità eccedente dai pool condivisi).

  • I report dettagliati offrono suddivisioni a livello di attività per ogni team, tenendo traccia delle ore di calcolo esatte dedicate all’esecuzione di attività specifiche, tra cui attività prerilasciate, modelli di utilizzo orari e allocazioni specifiche per il namespace.

Importante

I report di utilizzo di HyperPod tengono traccia dell’utilizzo del calcolo in tutti i namespace Kubernetes di un cluster, inclusi i namespace gestiti dalla governance delle attività, quelli predefiniti e quelli creati al di fuori della governance delle attività (ad esempio, tramite chiamate API Kubernetes dirette o strumenti esterni). Questo monitoraggio a livello di infrastruttura garantisce una responsabilità completa basata sull’utilizzo e previene le incoerenze nell’attribuzione dei costi per i cluster condivisi, indipendentemente dal modo in cui vengono gestiti i namespace.

Formati e intervallo di tempo dei report

Utilizzando lo script Python fornito in Generazione di report, gli amministratori possono generare report di utilizzo on demand in formato CSV o PDF, selezionando intervalli di tempo che vanno da snapshot giornalieri a finestre cronologiche di 180 giorni (6 mesi).

Nota

Quando configuri l’infrastruttura per la creazione di report, puoi configurare la finestra cronologica in modo che vada oltre il valore massimo predefinito di 180 giorni. Per ulteriori informazioni sulla configurazione del periodo di conservazione dei dati, consulta Install Usage Report Infrastructure using CloudFormation.

Casi d’uso illustrativi

Questa funzionalità si applica a scenari critici in ambienti IA/ML multi-tenant come:

  1. Allocazione dei costi per i cluster condivisi: un amministratore gestisce un cluster HyperPod condiviso da 20 team che addestrano modelli di IA generativa. Utilizzando un report di riepilogo sull’utilizzo, analizza l’utilizzo giornaliero della GPU per 180 giorni e rileva che il Team A ha consumato 200 ore di GPU per un tipo di istanza specifico, 170 dalla sua quota allocata e 30 dalle risorse di calcolo prese in prestito. L’amministratore fattura il Team A in base all’utilizzo rilevato.

  2. Audit e risoluzione delle controversie: un team finanziario mette in dubbio l’accuratezza dell’attribuzione dei costi, menzionando la presenza di incongruenze. L’amministratore può esportare un report dettagliato a livello di attività per verificare le discrepanze. Incrociando i timestamp, i tipi di istanze e i processi prerilasciati all’interno del namespace del team, il report riconcilia in modo trasparente i dati di utilizzo contestati.