Esplora il pannello di controllo Approfondimenti su Debugger Amazon SageMaker - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esplora il pannello di controllo Approfondimenti su Debugger Amazon SageMaker

Quando si avvia un processo di addestramento su SageMaker, Debugger SageMaker inizia a monitorare l'utilizzo delle risorse delle istanze Amazon EC2 in base all’impostazione predefinita. È possibile tenere traccia dei tassi di utilizzo del sistema, della panoramica delle statistiche e dell'analisi delle regole integrate tramite il pannello di controllo delle Informazioni. Questa guida illustra il contenuto del pannello di controllo Approfondimenti su Debugger SageMaker nelle seguenti schede: Parametri di sistema e Regole.

Nota

La dashboard degli approfondimenti di SageMaker Debugger esegue un’applicazione Studio Classic su un’istanza ml.m5.4xlarge per elaborare ed eseguire il rendering delle visualizzazioni. Ogni scheda di Approfondimenti su SageMaker Debugger esegue una sessione del kernel di Studio Classic. Più sessioni del kernel per più schede di Approfondimenti su Debugger SageMaker vengono eseguite sulla singola istanza. Quando si chiude una scheda di Approfondimenti su Debugger SageMaker, viene chiusa anche la sessione del kernel corrispondente. L’applicazione Studio Classic rimane attiva e addebita i costi per l’utilizzo dell’istanza ml.m5.4xlarge. Per informazioni sui prezzi, consultare la pagina Prezzi di Amazon SageMaker.

Importante

Quando hai finito di usare il pannello di controllo Approfondimenti su Debugger SageMaker, arresta l'istanza ml.m5.4xlarge per evitare addebiti. Per istruzioni sulla modalità di arresto di un'istanza, consultare Arresto dell'istanza Approfondimenti su Debugger Amazon SageMaker.

Importante

Nei report, i grafici e le raccomandazioni sono forniti a scopo informativo e non sono definitivi. Sei responsabile della tua valutazione indipendente delle informazioni.

Parametri del sistema

Nella scheda Metriche di sistema, puoi utilizzare la tabella di riepilogo e i grafici delle serie temporali per comprendere l'utilizzo delle risorse.

Riepilogo dell'utilizzo delle risorse

Questa tabella riassuntiva mostra le statistiche relative alle metriche di utilizzo delle risorse di calcolo di tutti i nodi (denominate algo-n). Le metriche di utilizzo delle risorse includono l'utilizzo totale della CPU, l'utilizzo totale della GPU, l'utilizzo totale della memoria della CPU, l'utilizzo totale della memoria GPU, il tempo di attesa I/O totale e la rete totale in byte. La tabella mostra i valori minimo e massimo e i percentili p99, p90 e p50.

Una tabella riassuntiva dell'utilizzo delle risorse

Grafici delle serie temporali di utilizzo delle risorse

Utilizza i grafici delle serie temporali per visualizzare maggiori dettagli sull'utilizzo delle risorse e identificare in quale intervallo di tempo ogni istanza mostra un tasso di utilizzo indesiderato, ad esempio un basso utilizzo della GPU, e i colli di bottiglia della CPU che possono causare lo spreco della costosa istanza.

L'interfaccia utente del controller del grafico delle serie temporali

La schermata seguente mostra il controller dell'interfaccia utente per la regolazione dei grafici delle serie temporali.

Il controller dell'interfaccia utente nel pannello di controllo Approfondimenti su Debugger SageMaker.
  • algo-1: usa questo menu a discesa per scegliere il nodo che vuoi esaminare.

  • Ingrandisci: usa questo pulsante per ingrandire i grafici delle serie temporali e visualizzare intervalli di tempo più brevi.

  • Zoom indietro: utilizza questo pulsante per rimpicciolire i grafici delle serie temporali e visualizzare intervalli di tempo più ampi.

  • Esegui una panoramica a sinistra: sposta i grafici delle serie temporali su un intervallo temporale precedente.

  • Esegui una panoramica a destra: sposta i grafici delle serie temporali su un intervallo temporale successivo.

  • Correggi intervallo di tempo: utilizza questa casella di controllo per correggere o ripristinare i grafici delle serie temporali in modo da mostrare l'intera vista dal primo punto dati all'ultimo punto dati.

Utilizzo della CPU e tempo di attesa I/O

I primi due grafici mostrano l'utilizzo della CPU e il tempo di attesa I/O nel tempo. In base all’impostazione predefinita, i grafici mostrano la media del tasso di utilizzo della CPU e del tempo di attesa I/O impiegato sui core CPU. È possibile selezionare uno o più core della CPU selezionando le etichette per rappresentarle graficamente su un unico grafico e confrontare l'utilizzo tra i core. Puoi trascinare e ingrandire e rimpicciolire per esaminare più da vicino intervalli di tempo specifici.

debugger-studio-insight-mockup

Utilizzo della GPU e utilizzo della memoria GPU

I grafici seguenti mostrano l'utilizzo della GPU e della memoria GPU nel tempo. In base all’impostazione predefinita, i grafici mostrano il tasso di utilizzo medio nel tempo. Puoi selezionare le etichette dei core della GPU per visualizzare il tasso di utilizzo di ciascun core. Il calcolo del tasso di utilizzo medio rispetto al numero totale di core GPU mostra l'utilizzo medio dell'intera risorsa del sistema hardware. Osservando il tasso di utilizzo medio, puoi verificare l'utilizzo complessivo delle risorse di sistema di un'istanza Amazon EC2. La figura seguente mostra un processo di addestramento di esempio su un'istanza ml.p3.16xlarge con 8 core GPU. È possibile monitorare se il processo di addestramento è ben distribuito, utilizzando appieno tutte le GPU.

debugger-studio-insight-mockup

Utilizzo complessivo del sistema nel tempo

La seguente mappa termica mostra un esempio dell'utilizzo dell'intero sistema di un'ml.p3.16xlargeistanza nel tempo, proiettato sul grafico bidimensionale. Ogni core di CPU e GPU è elencato nell’asse verticale e l'utilizzo viene registrato nel tempo con uno schema di colori, in cui i colori brillanti rappresentano un utilizzo ridotto e i colori più scuri rappresentano un utilizzo elevato. Consulta la barra dei colori etichettata sul lato destro del grafico per scoprire quale livello di colore corrisponde a quale frequenza di utilizzo.

debugger-studio-insight-mockup

Regolamento

Utilizza la scheda Regole per trovare un riepilogo dell'analisi delle regole di profilazione relative al tuo processo di addestramento. Se la regola di profilazione viene attivata con il processo di addestramento, il testo appare evidenziato con il testo bianco pieno. Le regole inattive sono disattivate nel testo grigio. Per attivare queste regole, segui le istruzioni all'indirizzo Utilizzare le regole di profilazione integrate gestite da Amazon SageMaker Debugger.

La scheda Regole nel pannello di controllo delle Informazioni di Debugger SageMaker