Metriche Amazon CloudWatch per il monitoraggio e l’analisi dei job di addestramento - Amazon SageMaker AI

Metriche Amazon CloudWatch per il monitoraggio e l’analisi dei job di addestramento

Un processo di addestramento di SageMaker è un processo iterativo che insegna a un modello a fare previsioni tramite esempi provenienti da un set di dati di addestramento. In genere, un algoritmo di addestramento calcola diversi parametri, ad esempio errore di addestramento e accuratezza della previsione. Questi parametri consentono di stabilire la capacità di apprendimento e di generalizzazione del modello per fare previsioni su dati non visualizzati. L’algoritmo di addestramento scrive i valori di queste metriche nei log, che SageMaker AI monitora e invia ad Amazon CloudWatch in tempo reale. Per analizzare le prestazioni del processo di addestramento, puoi visualizzare grafici di questi parametri in CloudWatch. Al termine di un processo di addestramento, puoi anche ottenere un elenco dei valori dei parametri che vengono calcolati nell'iterazione finale chiamando l'operazione DescribeTrainingJob.

Nota

Amazon CloudWatch supporta parametri personalizzati ad alta risoluzione e la sua risoluzione massima è di 1 secondo. Tuttavia, maggiore è la risoluzione, minore è la durata dei parametri CloudWatch. Per la risoluzione della frequenza di 1 secondo, i parametri di CloudWatch sono disponibili per 3 ore. Per ulteriori informazioni sulla risoluzione e sulla durata dei parametri CloudWatch, consulta GetMetricStatistics in Amazon CloudWatch API Reference.

Suggerimento

Se desideri profilare il processo di addestramento con una risoluzione più precisa con una granularità fino a 100 millisecondi (0,1 secondi) e archiviare i parametri di addestramento a tempo indeterminato in Amazon S3 per analisi personalizzate in qualsiasi momento, prendi in considerazione l'utilizzo di Debugger Amazon SageMaker. Debugger SageMaker fornisce regole integrate per rilevare automaticamente i problemi di addestramento più comuni; rileva i problemi di utilizzo delle risorse hardware (come i colli di bottiglia di CPU, GPU e I/O) e i problemi dei modelli non convergenti (come sovradimensionamento, gradienti spariti e l'esplosione dei tensori). SageMaker Debugger fornisce anche visualizzazioni tramite Studio Classic e il relativo report di profilazione. Per esplorare le visualizzazioni del Debugger, consulta SageMaker Debugger Insights Dashboard Walkthrough, Debbugger Profiling Report Walkthrough e Analyze Data Using the SMDebug Client Library.