Riferimento per le metriche - Amazon SageMaker AI

Riferimento per le metriche

Le sezioni seguenti descrivono le metriche disponibili in Amazon SageMaker Canvas per ogni tipo di modello.

Parametri per la previsione numerica

L’elenco seguente definisce le metriche avanzate per la previsione numerica in Amazon SageMaker Canvas e fornisce informazioni su come utilizzarle.

  • InferenceLatency: l’intervallo di tempo approssimativo che intercorre tra l’invio di una richiesta di previsione tramite modello e la sua ricezione da parte di un endpoint in tempo reale su cui viene implementato il modello. Questa metrica viene misurata in secondi ed è disponibile solo per i modelli creati con la modalità Ensemble.

  • MAE: Errore assoluto medio. In media, la previsione per la colonna di destinazione è pari a +/- {MAE} rispetto al valore effettivo.

    Misura la differenza tra i valori previsti e quelli effettivi, quando viene calcolata la media di tutti i valori. MAE è utilizzato spesso nella previsione numerica per comprendere l’errore della previsione tramite modello. Se le previsioni sono lineari, MAE rappresenta la distanza media tra una riga prevista e il valore effettivo. La MAE è definita come la somma degli errori assoluti divisa per il numero di osservazioni. I valori sono compresi tra 0 e infinito, con numeri più piccoli che indicano una migliore adattabilità del modello ai dati.

  • MAPE: Errore assoluto medio percentuale. In media, la previsione per la colonna di destinazione è pari a +/- {MAPE}% del valore effettivo.

    MAPE è la media delle differenze assolute tra i valori effettivi e i valori previsti o stimati, divisa per i valori effettivi ed espressa in percentuale. Un valore MAPE più basso indica prestazioni migliori, perché significa che i valori previsti o stimati sono più vicini ai valori effettivi.

  • MSE: errore quadratico medio o discrepanza quadratica media tra i valori previsti e quelli effettivi.

    I valori MSE sono sempre positivi. Quanto più un modello è in grado di prevedere i valori effettivi, tanto più piccolo è il valore MSE.

  • R2: Percentuale della differenza nella colonna di destinazione che può essere spiegata dalla colonna di input.

    Quantifica in che misura un modello può spiegare la varianza di una variabile dipendente. I valori sono compresi tra uno (1) e meno uno (-1). I numeri più alti indicano una frazione più alta della variabilità spiegata. I valori vicini allo zero (0) indicano che il modello può spiegare una minima parte della variabile dipendente. I valori negativi indicano un adattamento inadeguato e che le prestazioni del modello sono superate da una funzione costante (o da una riga orizzontale).

  • RMSE: radice dell’errore quadratico medio o deviazione standard degli errori.

    Misura la radice quadrata della differenza quadratica tra i valori previsti e quelli effettivi e calcola la media di tutti i valori. Si usa per comprendere l’errore della previsione tramite modello ed è una metrica importante per rilevare la presenza di errori e valori anomali in un modello di grandi dimensioni. I valori sono compresi tra zero (0) e infinito, con numeri più piccoli che indicano una migliore adattabilità del modello ai dati. RMSE dipende dalla scala e non deve essere utilizzato per confrontare set di dati di tipi diversi.

Metriche per la previsione categorica

Questa sezione definisce le metriche avanzate per la previsione categorica in Amazon SageMaker Canvas e fornisce informazioni su come utilizzarle.

Di seguito è riportato un elenco delle metriche disponibili per la previsione con due categorie.

  • Accuratezza: la percentuale di previsioni corrette.

    Oppure, il rapporto tra il numero di previsioni corrette e il numero totale di previsioni. La precisione misura quanto i valori delle classi previsti si avvicinano ai valori effettivi. I valori per i parametri di precisione variano tra zero (0) e uno (1). Un valore pari a 1 indica un’assoluta accuratezza, mentre 0 indica un’assoluta imprecisione.

  • AUC: un valore compreso tra 0 e 1 che indica quanto il modello sia in grado di separare le categorie nel set di dati. Un valore di 1 indica che è stato in grado di separare perfettamente le categorie.

  • BalancedAccuracy: misura il rapporto tra previsioni accurate e tutte le previsioni.

    Questo rapporto viene calcolato dopo aver normalizzato i veri positivi (TP) e i veri negativi (TN) in base al numero totale di valori positivi (P) e negativi (N). È definito come descritto di seguito: 0.5*((TP/P)+(TN/N)), con valori compresi tra 0 e 1. La metrica di accuratezza bilanciata offre una misurazione migliore dell’accuratezza quando il numero di positivi o negativi differisce notevolmente in un set di dati squilibrato, ad esempio quando solo l’1% delle e-mail è spam.

  • F1: una misura di accuratezza bilanciata che tiene conto dell'equilibrio della classe.

    È la media armonica dei punteggi di precisione e richiamo, definita come descritto di seguito: F1 = 2 * (precision * recall) / (precision + recall). I punteggi di F1 variano tra 0 e 1. Un punteggio pari a 1 indica la migliore prestazione possibile, mentre 0 indica la peggiore.

  • InferenceLatency: l’intervallo di tempo approssimativo che intercorre tra l’invio di una richiesta di previsione tramite modello e la sua ricezione da parte di un endpoint in tempo reale su cui viene implementato il modello. Questa metrica viene misurata in secondi ed è disponibile solo per i modelli creati con la modalità Ensemble.

  • LogLoss: la perdita di log, nota anche come perdita di entropia incrociata, è una metrica utilizzata per valutare la qualità degli output di probabilità, anziché gli output stessi. La perdita di log è un parametro importante per indicare quando un modello effettua previsioni errate con probabilità elevate. I valori tipici sono compresi tra 0 e infinito. Il valore 0 rappresenta un modello che prevede perfettamente i dati.

  • Precisione: rispetto a tutte le previsioni di {category x}, la previsione è risultata corretta il {precision}% delle volte.

    La precisione misura la capacità di un algoritmo di prevedere i veri positivi (TP) tra tutti i positivi che identifica. È definita come descritto di seguito: Precision = TP/(TP+FP), con valori compresi tra zero (0) e uno (1). La precisione è un parametro importante quando il costo di un falso positivo è elevato. Ad esempio, il costo di un falso positivo è molto elevato se un sistema di sicurezza aereo viene erroneamente considerato sicuro da pilotare. Un falso positivo (FP) riflette una previsione positiva che in realtà è negativa nei dati.

  • Richiamo: il modello ha previsto correttamente che il {recall}% dei casi fosse di {category x} quando {target_column} era effettivamente {category x}.

    Il recupero misura la capacità di un algoritmo di prevedere correttamente tutti i veri positivi (TP) in un set di dati. Un vero positivo è una previsione positiva che è anche un valore positivo effettivo dei dati. Il richiamo è definito come descritto di seguito: Recall = TP/(TP+FN), con valori compresi tra 0 e 1. I punteggi più alti riflettono una migliore capacità del modello di prevedere i veri positivi (TP) nei dati. Spesso non è sufficiente misurare solo il richiamo, perché la previsione di ogni output come vero positivo si traduce in un punteggio di richiamo perfetto.

Di seguito è riportato un elenco delle metriche disponibili per la previsione con tre o più categorie.

  • Accuratezza: la percentuale di previsioni corrette.

    Oppure, il rapporto tra il numero di previsioni corrette e il numero totale di previsioni. La precisione misura quanto i valori delle classi previsti si avvicinano ai valori effettivi. I valori per i parametri di precisione variano tra zero (0) e uno (1). Un valore pari a 1 indica un’assoluta accuratezza, mentre 0 indica un’assoluta imprecisione.

  • BalancedAccuracy: misura il rapporto tra previsioni accurate e tutte le previsioni.

    Questo rapporto viene calcolato dopo aver normalizzato i veri positivi (TP) e i veri negativi (TN) in base al numero totale di valori positivi (P) e negativi (N). È definito come descritto di seguito: 0.5*((TP/P)+(TN/N)), con valori compresi tra 0 e 1. La metrica di accuratezza bilanciata offre una misurazione migliore dell’accuratezza quando il numero di positivi o negativi differisce notevolmente in un set di dati squilibrato, ad esempio quando solo l’1% delle e-mail è spam.

  • F1macro: il punteggio F1macro applica il punteggio F1 calcolando la precisione e il richiamo, quindi utilizza la media armonica per calcolare il punteggio F1 per ogni classe. Quindi, F1macro calcola la media dei punteggi individuali per ottenere il punteggio F1macro. I punteggi di F1macro variano tra 0 e 1. Un punteggio pari a 1 indica la migliore prestazione possibile, mentre 0 indica la peggiore.

  • InferenceLatency: l’intervallo di tempo approssimativo che intercorre tra l’invio di una richiesta di previsione tramite modello e la sua ricezione da parte di un endpoint in tempo reale su cui viene implementato il modello. Questa metrica viene misurata in secondi ed è disponibile solo per i modelli creati con la modalità Ensemble.

  • LogLoss: la perdita di log, nota anche come perdita di entropia incrociata, è una metrica utilizzata per valutare la qualità degli output di probabilità, anziché gli output stessi. La perdita di log è un parametro importante per indicare quando un modello effettua previsioni errate con probabilità elevate. I valori tipici sono compresi tra 0 e infinito. Il valore 0 rappresenta un modello che prevede perfettamente i dati.

  • PrecisionMacro: misura la precisione calcolandola per ogni classe e calcolando la media dei punteggi per ottenere la precisione per diverse classi. I punteggi vanno da zero (0) a uno (1). I punteggi più alti riflettono la capacità del modello di prevedere i veri positivi (TP) tra tutti i positivi che identifica, calcolando la media tra più classi.

  • RecallMacro: misura il richiamo calcolandolo per ogni classe e calcolando la media dei punteggi per ottenere il richiamo per diverse classi. I punteggi sono compresi tra 0 e 1. I punteggi più alti riflettono la capacità del modello di prevedere i veri positivi (TP) in un set di dati, mentre un vero positivo riflette una previsione positiva che è anche un valore positivo effettivo nei dati. Spesso non è sufficiente misurare solo il recupero, perché prevedendo ogni output come un vero positivo si otterrà un punteggio di recupero perfetto.

Tieni presente che, per la previsione con tre o più categorie, ricevi anche le metriche medie F1, Accuratezza, Precisione e Richiamo. I punteggi di queste metriche sono semplicemente la media calcolata sui punteggi delle metriche per tutte le categorie.

Metriche per la previsione di immagini e testo

L’elenco seguente riporta le metriche disponibili per la previsione di immagini e testo.

  • Accuratezza: la percentuale di previsioni corrette.

    Oppure, il rapporto tra il numero di previsioni corrette e il numero totale di previsioni. La precisione misura quanto i valori delle classi previsti si avvicinano ai valori effettivi. I valori per i parametri di precisione variano tra zero (0) e uno (1). Un valore pari a 1 indica un’assoluta accuratezza, mentre 0 indica un’assoluta imprecisione.

  • F1: una misura di accuratezza bilanciata che tiene conto dell'equilibrio della classe.

    È la media armonica dei punteggi di precisione e richiamo, definita come descritto di seguito: F1 = 2 * (precision * recall) / (precision + recall). I punteggi di F1 variano tra 0 e 1. Un punteggio pari a 1 indica la migliore prestazione possibile, mentre 0 indica la peggiore.

  • Precisione: rispetto a tutte le previsioni di {category x}, la previsione è risultata corretta il {precision}% delle volte.

    La precisione misura la capacità di un algoritmo di prevedere i veri positivi (TP) tra tutti i positivi che identifica. È definita come descritto di seguito: Precision = TP/(TP+FP), con valori compresi tra zero (0) e uno (1). La precisione è un parametro importante quando il costo di un falso positivo è elevato. Ad esempio, il costo di un falso positivo è molto elevato se un sistema di sicurezza aereo viene erroneamente considerato sicuro da pilotare. Un falso positivo (FP) riflette una previsione positiva che in realtà è negativa nei dati.

  • Richiamo: il modello ha previsto correttamente che il {recall}% dei casi fosse di {category x} quando {target_column} era effettivamente {category x}.

    Il recupero misura la capacità di un algoritmo di prevedere correttamente tutti i veri positivi (TP) in un set di dati. Un vero positivo è una previsione positiva che è anche un valore positivo effettivo dei dati. Il richiamo è definito come descritto di seguito: Recall = TP/(TP+FN), con valori compresi tra 0 e 1. I punteggi più alti riflettono una migliore capacità del modello di prevedere i veri positivi (TP) nei dati. Spesso non è sufficiente misurare solo il richiamo, perché la previsione di ogni output come vero positivo si traduce in un punteggio di richiamo perfetto.

Tieni presente che, per i modelli di previsione di immagini e testo con previsione di tre o più categorie, ricevi anche le metriche medie F1, Accuratezza, Precisione e Richiamo. I punteggi di queste metriche sono solo la media dei punteggi delle metriche per tutte le categorie.

Parametri per le previsioni di serie temporali

Di seguito vengono definiti i parametri avanzati per le previsioni di serie temporali in Amazon SageMaker Canvas e vengono fornite informazioni su come utilizzarli.

  • Perdita quantile ponderata media (wQL): valuta la previsione calcolando la media dell’accuratezza sui quantili P10, P50 e P90. Un valore più basso indica un modello più accurato.

  • Errore assoluto percentuale ponderato (WAPE): la somma dell’errore assoluto normalizzata per la somma della destinazione assoluta, che misura la deviazione generale dei valori previsti dai valori osservati. Un valore più basso indica un modello più accurato, dove WAPE = 0 è un modello senza nessun errore.

  • Radice dell’errore quadratico medio (RMSE): la radice quadrata degli errori quadratici medi. Un valore RMSE più basso indica un modello più accurato, dove RMSE = 0 è un modello senza nessun errore.

  • Errore assoluto medio percentuale (MAPE): l'errore percentuale (differenza percentuale tra il valore medio previsto e il valore effettivo) calcolato in media su tutti i punti temporali. Un valore più basso indica un modello più accurato, dove MAPE = 0 è un modello senza nessun errore.

  • Errore assoluto medio scalato (MASE): l'errore assoluto medio della previsione normalizzato rispetto all'errore assoluto medio di un semplice metodo di previsione di base. Un valore più basso indica un modello più accurato, in cui MASE < 1 è considerato migliore della linea di base e MASE > 1 è considerato peggiore della linea di base.