Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Report sull'utilizzo per l'attribuzione dei costi in SageMaker HyperPod
Il reporting sull'utilizzo nei cluster SageMaker HyperPod orchestrati da EKS offre una visibilità granulare sul consumo delle risorse di elaborazione. Questa funzionalità consente alle organizzazioni di implementare un’attribuzione trasparente dei costi, allocando i costi dei cluster a team, progetti o reparti in base al loro utilizzo effettivo. Grazie al monitoraggio di parametri come le GPU/CPU ore e l'utilizzo di Neuron Core, rilevati sia negli aggregati a livello di team che nelle suddivisioni specifiche delle attività, la reportistica sull'utilizzo integra la funzionalità Task Governance di Task Governance, garantendo un'equa distribuzione dei costi in cluster multi-tenant condivisi mediante: HyperPod
-
Eliminazione delle ipotesi nell’allocazione dei costi
-
Collegamento diretto delle spese al consumo misurabile delle risorse
-
Applicazione della responsabilità basata sull’utilizzo in ambienti di infrastruttura condivisi
Prerequisiti
Per visualizzare questa funzionalità:
-
Hai bisogno di:
-
Un SageMaker HyperPod ambiente attivo con un cluster orchestrato da EKS in esecuzione.
-
(Consigliato vivamente) Governance delle attività configurata con quote di calcolo e regole di priorità. Per istruzioni sulla configurazione, consulta Configurazione della governance delle attività.
-
-
Acquisire familiarità con questi concetti fondamentali:
-
Quota di calcolo allocata: risorse riservate a un team in base a quote predefinite nelle sue policy di governance delle attività. Si tratta della capacità garantita per i carichi di lavoro del team.
-
Risorse di calcolo prese in prestito: risorse inattive nel pool del cluster condiviso che i team possono utilizzare temporaneamente in aggiunta alla loro quota assegnata. Le risorse di calcolo prese in prestito vengono assegnate dinamicamente in base alle regole di priorità definite nelle policy di governance delle attività e alla disponibilità delle risorse inutilizzate.
-
Utilizzo del calcolo: la misurazione delle risorse (GPU, CPU, ore di core Neuron) consumate da un team, definite come:
-
Utilizzo allocato: utilizzo compreso nella quota del team.
-
Utilizzo preso in prestito: utilizzo eccedente la quota, preso dal pool condiviso.
-
-
Attribuzione dei costi: il processo di allocazione dei costi del cluster ai team in base all’utilizzo effettivo delle risorse di calcolo, che include sia le risorse comprese nella quota predefinita che le risorse prese temporaneamente dal pool del cluster condiviso in aggiunta alla quota allocata.
-
Tipi di report
HyperPodi report sull'utilizzo forniscono una granularità operativa variabile:
-
I report di riepilogo forniscono una visibilità a livello aziendale sull'utilizzo delle risorse di calcolo, aggregando le ore GPU/CPU/Neuron Core totali per team (namespace) e distinguendo tra utilizzo regolare (risorse provenienti dalla quota allocata del team) ed elaborazione presa in prestito (capacità di sovraccarico da pool condivisi).
-
I report dettagliati offrono suddivisioni a livello di attività per ogni team, tenendo traccia delle ore di calcolo esatte dedicate all’esecuzione di attività specifiche, tra cui attività prerilasciate, modelli di utilizzo orari e allocazioni specifiche per il namespace.
Importante
HyperPod i report sull'utilizzo tengono traccia dell'utilizzo dell'elaborazione in tutti i namespace Kubernetes in un cluster, inclusi quelli gestiti da Task Governance, i namespace predefiniti e i namespace creati al di fuori di Task Governance (ad esempio, tramite chiamate API Kubernetes dirette o strumenti esterni). Questo monitoraggio a livello di infrastruttura garantisce una responsabilità completa basata sull’utilizzo e previene le incoerenze nell’attribuzione dei costi per i cluster condivisi, indipendentemente dal modo in cui vengono gestiti i namespace.
Formati e intervallo di tempo dei report
Utilizzando lo script Python fornito in Generazione di report, gli amministratori possono generare report di utilizzo on demand in formato CSV o PDF, selezionando intervalli di tempo che vanno da snapshot giornalieri a finestre cronologiche di 180 giorni (6 mesi).
Nota
Quando configuri l’infrastruttura per la creazione di report, puoi configurare la finestra cronologica in modo che vada oltre il valore massimo predefinito di 180 giorni. Per ulteriori informazioni sulla configurazione del periodo di conservazione dei CloudFormation dati
Casi d’uso illustrativi
Questa funzionalità affronta scenari critici in AI/ML ambienti multi-tenant come:
-
Allocazione dei costi per i cluster condivisi: un amministratore gestisce un HyperPod cluster condiviso da 20 team che addestrano modelli di intelligenza artificiale generativa. Utilizzando un report di riepilogo sull’utilizzo, analizza l’utilizzo giornaliero della GPU per 180 giorni e rileva che il Team A ha consumato 200 ore di GPU per un tipo di istanza specifico, 170 dalla sua quota allocata e 30 dalle risorse di calcolo prese in prestito. L’amministratore fattura il Team A in base all’utilizzo rilevato.
-
Audit e risoluzione delle controversie: un team finanziario mette in dubbio l’accuratezza dell’attribuzione dei costi, menzionando la presenza di incongruenze. L’amministratore può esportare un report dettagliato a livello di attività per verificare le discrepanze. Incrociando i timestamp, i tipi di istanze e i processi prerilasciati all’interno del namespace del team, il report riconcilia in modo trasparente i dati di utilizzo contestati.