Dashboard di SageMaker HyperPod osservabilità di Amazon - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Dashboard di SageMaker HyperPod osservabilità di Amazon

Questo argomento descrive come visualizzare i dashboard delle metriche per i cluster Amazon SageMaker HyperPod (SageMaker HyperPod) e come aggiungere nuovi utenti a una dashboard. L’argomento descrive inoltre i diversi tipi di dashboard.

Accesso alle dashboard

Per visualizzare le metriche del tuo SageMaker HyperPod cluster in Amazon Managed Grafana, esegui i seguenti passaggi:

  1. Apri la console Amazon SageMaker AI all'indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Vai alla pagina dei dettagli del cluster.

  3. Nella scheda Dashboard, individua la sezione HyperPod Osservabilità e scegli Apri dashboard in Grafana.

Aggiunta di nuovi utenti a uno spazio di lavoro Grafana gestito da Amazon

Per informazioni su come aggiungere utenti a uno spazio di lavoro Grafana gestito da Amazon, consulta Use AWS IAM Identity Center with your Amazon Managed Grafana workspace in Amazon Managed Grafana User Guide.

Dashboard di osservabilità

Il componente aggiuntivo SageMaker HyperPod Observability fornisce cinque dashboard interconnesse nell'area di lavoro Amazon Managed Grafana predefinita. Ogni dashboard fornisce informazioni approfondite sulle diverse risorse e attività nei cluster per vari utenti come Data Scientist, ingegneri di machine learning e amministratori.

Dashboard delle attività

La dashboard Task offre il monitoraggio e la visualizzazione completi dei parametri di utilizzo delle risorse per le attività. SageMaker HyperPod Il pannello principale mostra una tabella dettagliata che raggruppa l’utilizzo delle risorse per attività principali, mostrando l’utilizzo di CPU, GPU e memoria nei vari pod. I grafici interattivi delle serie temporali tracciano l’utilizzo della CPU, il consumo di memoria di sistema, le percentuali di utilizzo della GPU e l’utilizzo della memoria GPU per i pod selezionati, consentendoti di monitorare le tendenze delle prestazioni nel tempo. La dashboard offre potenti funzionalità di filtraggio tramite variabili, ad esempio il nome del cluster, il namespace, il tipo di attività e pod specifici, che semplificano l’analisi di determinati carichi di lavoro. Questa soluzione di monitoraggio è essenziale per ottimizzare l'allocazione delle risorse e mantenere le prestazioni dei carichi di lavoro di apprendimento automatico su. SageMaker HyperPod

Dashboard di addestramento

La dashboard di addestramento fornisce un monitoraggio completo dell’integrità delle attività di addestramento, dell’affidabilità e delle metriche di gestione dei guasti. La dashboard presenta diversi indicatori chiave delle prestazioni, tra cui il numero di attività create, i tassi di successo e le percentuali del tempo di attività, oltre al tracciamento dettagliato degli eventi di riavvio automatici e manuali. Offre visualizzazioni dettagliate dei modelli di guasto tramite grafici a torta e mappe di calore che suddividono gli incidenti per tipo e latenza di correzione, consentendoti di identificare i problemi ricorrenti e ottimizzare l’affidabilità delle attività. L’interfaccia include il monitoraggio in tempo reale delle metriche critiche, ad esempio i tempi di ripristino del sistema e le latenze di rilevamento dei guasti, rendendola uno strumento essenziale per mantenere un’elevata disponibilità dei carichi di lavoro di addestramento. Inoltre, la finestra finale di 24 ore della dashboard fornisce un contesto cronologico per l’analisi delle tendenze e dei modelli nelle prestazioni delle attività di addestramento, aiutando i team a risolvere in modo proattivo i potenziali problemi prima che influiscano sui carichi di lavoro di produzione.

Dashboard di inferenza

La dashboard di inferenza offre un monitoraggio completo delle prestazioni di implementazione del modello e delle metriche di integrità su più dimensioni. Offre una panoramica dettagliata delle implementazioni attive, il monitoraggio in tempo reale dei tassi di richiesta, dei tassi di successo e delle metriche di latenza, che consentono di monitorare le prestazioni di servizio dei modelli e di identificare potenziali colli di bottiglia. La dashboard include pannelli specializzati per le metriche di inferenza generali e le metriche specifiche dei token per i modelli linguistici, come il tempo al primo token (Time To First Token, TTFT) e il throughput dei token, il che la rende particolarmente utile per il monitoraggio delle implementazioni di modelli linguistici di grandi dimensioni. Inoltre, fornisce informazioni approfondite sull’infrastruttura grazie al tracciamento dell’allocazione di pod e nodi e offre al tempo stesso funzionalità di analisi dettagliata degli errori che contribuiscono a mantenere elevate la disponibilità e le prestazioni dei carichi di lavoro di inferenza.

Dashboard del cluster

La dashboard del cluster offre una visione completa dello stato e delle prestazioni del cluster, offrendo visibilità in tempo reale sulle risorse di calcolo, memoria, rete e storage nell'ambiente Amazon SageMaker HyperPod (SageMaker HyperPod). Con una sola occhiata, puoi visualizzare metriche critiche come le istanze totali, l’utilizzo della GPU, l’utilizzo della memoria e le prestazioni di rete attraverso un’interfaccia intuitiva che aggiorna automaticamente i dati ogni pochi secondi. La dashboard è organizzata in sezioni logiche: parte da una panoramica generale del cluster che mostra le metriche chiave, come la percentuale di istanze integre e il numero totale di risorse, e prosegue poi con sezioni dettagliate sulle prestazioni della GPU, l’utilizzo della memoria, le statistiche di rete e le metriche di archiviazione. Ogni sezione presenta grafici e pannelli interattivi che consentono di approfondire metriche specifiche, con intervalli di tempo personalizzabili e opzioni di filtraggio per nome del cluster, istanza o ID della GPU.

Dashboard del file system

La dashboard del file system offre una visibilità completa sulle prestazioni e sui parametri di salute del file system (Amazon FSx for Lustre). La dashboard mostra i parametri di storage critici, tra cui capacità libera, risparmi sulla deduplicazione, CPU/memory utilizzo, IOPS del disco, throughput e connessioni client su più visualizzazioni. Consente di monitorare sia gli indicatori di prestazioni a livello di sistema, come l'utilizzo della CPU e della memoria, sia le metriche specifiche dello storage, come le operazioni e i modelli di utilizzo del disco. read/write L’interfaccia include funzionalità di tracciamento degli avvisi e grafici dettagliati delle serie temporali per tenere traccia delle tendenze delle prestazioni nel tempo, opzioni che la rendono particolarmente utile per la manutenzione proattiva e la pianificazione della capacità. Inoltre, grazie alla copertura completa delle metriche, la dashboard aiuta a identificare potenziali colli di bottiglia, ottimizzare le prestazioni di storage e garantire operazioni affidabili dei file system per i carichi di lavoro. SageMaker HyperPod

Dashboard delle partizioni GPU

Per monitorare le metriche specifiche della partizione GPU quando si utilizzano configurazioni Multi-Instance GPU (MIG), è necessario installare o eseguire l'aggiornamento alla versione più recente del componente aggiuntivo Observability. SageMaker HyperPod Questo addon offre funzionalità di monitoraggio complete, incluse metriche specifiche per MiG come il numero di partizioni, l'utilizzo della memoria e l'utilizzo del calcolo per partizione GPU.

Se hai già installato SageMaker HyperPod Observability ma hai bisogno del supporto per le metriche MIG, aggiorna semplicemente l'addon alla versione più recente. Questo processo non prevede interruzioni e mantiene la configurazione di monitoraggio esistente.

SageMaker HyperPod espone automaticamente metriche specifiche di MiG, tra cui:

  • nvidia_mig_instance_count: Numero di istanze MIG per profilo

  • nvidia_mig_memory_usage: utilizzo della memoria per istanza MIG

  • nvidia_mig_compute_utilization: utilizzo del calcolo per istanza MIG