Prerequisiti Tipi di report Formati e intervallo di tempo dei report Casi d’uso illustrativi

Report sull'utilizzo per l'attribuzione dei costi in SageMaker HyperPod

Il reporting sull'utilizzo nei SageMaker HyperPod EKS-orchestrated cluster offre una visibilità granulare sul consumo delle risorse di calcolo. Questa funzionalità consente alle organizzazioni di implementare un’attribuzione trasparente dei costi, allocando i costi dei cluster a team, progetti o reparti in base al loro utilizzo effettivo. Grazie al monitoraggio di metriche come le GPU/CPU ore e l'utilizzo di Neuron Core, rilevate sia negli aggregati a livello di team che nelle suddivisioni specifiche delle attività, i report sull'utilizzo HyperPod completano la funzionalità Task Governance di Neuron, garantendo un'equa distribuzione dei costi in cluster multi-tenant condivisi mediante:

Eliminazione delle ipotesi nell’allocazione dei costi
Collegamento diretto delle spese al consumo misurabile delle risorse
Applicazione della responsabilità basata sull’utilizzo in ambienti di infrastruttura condivisi

Prerequisiti

Per visualizzare questa funzionalità:

Hai bisogno di:
- Un SageMaker HyperPod ambiente attivo con un EKS-orchestrated cluster in esecuzione.
- (Consigliato vivamente) Governance delle attività configurata con quote di calcolo e regole di priorità. Per istruzioni sulla configurazione, consulta Configurazione della governance delle attività.
Acquisire familiarità con questi concetti fondamentali:
- Quota di calcolo allocata: risorse riservate a un team in base a quote predefinite nelle sue policy di governance delle attività. Si tratta della capacità garantita per i carichi di lavoro del team.
- Risorse di calcolo prese in prestito: risorse inattive nel pool del cluster condiviso che i team possono utilizzare temporaneamente in aggiunta alla loro quota assegnata. Le risorse di calcolo prese in prestito vengono assegnate dinamicamente in base alle regole di priorità definite nelle policy di governance delle attività e alla disponibilità delle risorse inutilizzate.
- Utilizzo del calcolo: la misurazione delle risorse (GPU, CPU, ore di core Neuron) consumate da un team, definite come:
  - Utilizzo allocato: utilizzo compreso nella quota del team.
  - Utilizzo preso in prestito: utilizzo eccedente la quota, preso dal pool condiviso.
- Attribuzione dei costi: il processo di allocazione dei costi del cluster ai team in base all’utilizzo effettivo delle risorse di calcolo, che include sia le risorse comprese nella quota predefinita che le risorse prese temporaneamente dal pool del cluster condiviso in aggiunta alla quota allocata.

Tipi di report

HyperPodi report sull'utilizzo forniscono una granularità operativa variabile:

I report di riepilogo forniscono una visibilità a livello aziendale sull'utilizzo delle risorse di calcolo, aggregando le ore GPU/CPU/Neuron Core totali per team (namespace) e distinguendo tra utilizzo regolare (risorse provenienti dalla quota allocata del team) ed elaborazione presa in prestito (capacità di sovraccarico da pool condivisi).
I report dettagliati offrono suddivisioni a livello di attività per ogni team, tenendo traccia delle ore di calcolo esatte dedicate all’esecuzione di attività specifiche, tra cui attività prerilasciate, modelli di utilizzo orari e allocazioni specifiche per il namespace.

Importante

HyperPod i report sull'utilizzo tengono traccia dell'utilizzo dell'elaborazione in tutti i namespace Kubernetes in un cluster, inclusi quelli gestiti da Task Governance, i namespace predefiniti e i namespace creati al di fuori di Task Governance (ad esempio, tramite chiamate API Kubernetes dirette o strumenti esterni). Questo monitoraggio a livello di infrastruttura garantisce una responsabilità completa basata sull’utilizzo e previene le incoerenze nell’attribuzione dei costi per i cluster condivisi, indipendentemente dal modo in cui vengono gestiti i namespace.

Formati e intervallo di tempo dei report

Utilizzando lo script Python fornito in Generazione di report, gli amministratori possono generare report di utilizzo on demand in formato CSV o PDF, selezionando intervalli di tempo che vanno da snapshot giornalieri a finestre cronologiche di 180 giorni (6 mesi).

Nota

Quando configuri l’infrastruttura per la creazione di report, puoi configurare la finestra cronologica in modo che vada oltre il valore massimo predefinito di 180 giorni. Per ulteriori informazioni sulla configurazione del periodo di conservazione dei CloudFormation dati, consulta Installare l'infrastruttura dei report di utilizzo utilizzando.

Casi d’uso illustrativi

Questa funzionalità affronta scenari critici in AI/ML ambienti multi-tenant come:

Allocazione dei costi per i cluster condivisi: un amministratore gestisce un HyperPod cluster condiviso da 20 team che addestrano modelli di intelligenza artificiale generativa. Utilizzando un report di riepilogo sull’utilizzo, analizza l’utilizzo giornaliero della GPU per 180 giorni e rileva che il Team A ha consumato 200 ore di GPU per un tipo di istanza specifico, 170 dalla sua quota allocata e 30 dalle risorse di calcolo prese in prestito. L’amministratore fattura il Team A in base all’utilizzo rilevato.
Audit e risoluzione delle controversie: un team finanziario mette in dubbio l’accuratezza dell’attribuzione dei costi, menzionando la presenza di incongruenze. L’amministratore può esportare un report dettagliato a livello di attività per verificare le discrepanze. Incrociando i timestamp, i tipi di istanze e i processi prerilasciati all’interno del namespace del team, il report riconcilia in modo trasparente i dati di utilizzo contestati.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Attribuzione

Dettagli dei report e suddivisione dei dati