Referenz zu den Metriken - Amazon SageMaker AI

Referenz zu den Metriken

In den folgenden Abschnitten werden die Metriken beschrieben, die in Amazon SageMaker Canvas für jeden Modelltyp verfügbar sind.

Metriken für numerische Vorhersagen

Die folgende Liste definiert die Metriken für numerische Vorhersagen in SageMaker Canvas und informiert Sie darüber, wie Sie diese verwenden können.

  • InferenceLatency – Die ungefähre Zeitspanne zwischen der Anforderung einer Modellprognose und deren Empfang von einem Echtzeit-Endpunkt, auf dem das Modell bereitgestellt ist. Diese Metrik wird in Sekunden gemessen und ist nur für Modelle verfügbar, die im Ensembling-Modus erstellt wurden.

  • MAE – Mittlerer absoluter Fehler. Im Durchschnitt entspricht die Vorhersage für die Zielspalte +/- {MAE} dem tatsächlichen Wert.

    Misst, wie stark die prognostizierten und tatsächlichen Werte voneinander abweichen, wenn sie über alle Werte gemittelt werden. MAE wird häufig in der numerischen Vorhersage verwendet, um Fehler bei der Modellprognose zu verstehen. Wenn die Vorhersagen linear sind, stellt MAE den durchschnittlichen Abstand zwischen einer vorhergesagten Linie und dem tatsächlichen Wert dar. MAE ist definiert als die Summe der absoluten Fehler geteilt durch die Anzahl der Beobachtungen. Die Werte reichen von 0 bis unendlich. Dabei weisen kleinere Zahlen auf eine bessere Anpassung des Modells an die Daten hin.

  • MAPE – Mittlerer absoluter Fehler in Prozent. Im Durchschnitt liegt die Vorhersage für die Zielspalte +/- {MAPE}% vom tatsächlichen Wert ab.

    MAPE ist der Mittelwert der absoluten Differenzen zwischen den tatsächlichen Werten und den vorhergesagten oder geschätzten Werten, geteilt durch die tatsächlichen Werte und ausgedrückt als Prozentsatz. Ein niedrigerer MAPE-Wert weist auf eine bessere Leistung hin, da dies bedeutet, dass die vorhergesagten oder geschätzten Werte näher an den tatsächlichen Werten liegen.

  • MSE – Mittlerer quadratischer Fehler oder der Durchschnitt der quadrierten Differenzen zwischen den vorhergesagten und den tatsächlichen Werten.

    MSE-Werte sind immer positiv. Je besser ein Modell die tatsächlichen Werte vorhersagen kann, desto kleiner ist der MSE-Wert.

  • R2 – Der Prozentsatz der Differenz in der Zielspalte, der durch die Eingabespalte erklärt werden kann.

    Quantifiziert, inwieweit ein Modell die Varianz einer abhängigen Variablen erklären kann. Die Werte reichen von Eins (1) bis negativ Eins (-1). Höhere Zahlen weisen auf einen höheren Anteil der Erklärbarkeit hin. Werte nahe Null (0) deuten darauf hin, dass nur ein sehr geringer Teil der abhängigen Variablen durch das Modell erklärt werden kann. Negative Werte deuten auf eine schlechte Anpassung hin und darauf, dass das Modell durch eine konstante Funktion (oder eine horizontale Linie) übertroffen wird.

  • RMSE – Root Mean Squared Error (quadratischer Mittelwertfehler) oder die Standardabweichung der Fehler.

    Misst die Quadratwurzel der quadrierten Differenz zwischen vorausgesagten und tatsächlichen Werten und wird über alle Werte gemittelt. Es wird verwendet, um Modellvorhersagefehler zu verstehen, und ist ein wichtiger Maßstab, um das Vorhandensein großer Modellfehler und Ausreißer anzuzeigen. Die Werte reichen von Null (0) bis unendlich. Dabei weisen kleinere Zahlen auf eine bessere Anpassung des Modells an die Daten hin. Der RMSE ist skalierungsabhängig und sollte nicht zum Vergleich von Datensätzen unterschiedlicher Art verwendet werden.

Metriken für kategoriale Vorhersage

In diesem Abschnitt werden die Metriken für kategoriale Vorhersagen in SageMaker Canvas definiert und Informationen zu deren Verwendung bereitgestellt.

Nachfolgend finden Sie eine Liste der verfügbaren Metriken für die 2-Kategorien-Vorhersage:

  • Genauigkeit – Der Prozentsatz der richtigen Vorhersagen.

    Oder das Verhältnis der Anzahl korrekt vorhergesagter Elemente zur Gesamtzahl der Vorhersagen. Die Genauigkeit gibt an, wie nahe die vorhergesagten Klassenwerte an den tatsächlichen Werten liegen. Die Werte für Genauigkeitsmetriken variieren zwischen Null (0) und Eins (1). Der Wert 1 steht für perfekte Genauigkeit, während 0 für völlige Ungenauigkeit steht.

  • AUC – Ein Wert zwischen 0 und 1, der angibt, wie gut Ihr Modell die Kategorien in Ihrem Datensatz trennen kann. Ein Wert von 1 gibt an, dass die Kategorien perfekt getrennt werden konnten.

  • BalancedAccuracy – misst das Verhältnis von genauen Vorhersagen zu allen Vorhersagen.

    Dieses Verhältnis wird berechnet, nachdem wirklich positive (TP) und True negative Werte (TN) durch die Gesamtzahl der positiven (P) und negativen (N) Werte normalisiert wurden. Er ist wie folgt definiert: 0.5*((TP/P)+(TN/N)), mit Werten im Bereich von 0 bis 1. Die Metrik „BalancedAccuracy“ liefert ein besseres Maß für die Genauigkeit, wenn die Anzahl der positiven oder negativen Ergebnisse in einem unausgewogenen Datensatz stark voneinander abweicht, beispielsweise wenn nur 1 % der E-Mails Spam sind.

  • F1 – Ein ausgewogenes Maß für Genauigkeit, das das Klassengleichgewicht berücksichtigt.

    Es handelt sich um den harmonischen Mittelwert der Präzisions- und Recall-Werte, der wie folgt definiert ist: F1 = 2 * (precision * recall) / (precision + recall). Die F1-Werte variieren zwischen 0 und 1. Ein Wert von 1 steht für die bestmögliche Leistung und 0 für die schlechteste.

  • InferenceLatency – Die ungefähre Zeitspanne zwischen der Anforderung einer Modellprognose und deren Empfang von einem Echtzeit-Endpunkt, auf dem das Modell bereitgestellt ist. Diese Metrik wird in Sekunden gemessen und ist nur für Modelle verfügbar, die im Ensembling-Modus erstellt wurden.

  • LogLoss – Der Protokollverlust, auch bekannt als Kreuz-Entropie-Verlust, ist eine Metrik, die verwendet wird, um die Qualität der Wahrscheinlichkeitsausgaben und nicht die Ergebnisse selbst zu bewerten. Der Protokollverlust ist eine wichtige Kennzahl, die angibt, wann ein Modell mit hoher Wahrscheinlichkeit falsche Voraussagen trifft. Werte liegen zwischen 0 und unendlich. Ein Wert von 0 steht für ein Modell, das die Daten perfekt vorhersagt.

  • Genauigkeit – Von allen Vorhersagen für {category x} war die Vorhersage in {precision} % der Fälle korrekt.

    Mit der Präzision wird gemessen, wie gut ein Algorithmus unter allen von ihm identifizierten positiven Ergebnissen die wirklich positiven Ergebnisse (TP) voraussagt. Er ist wie folgt definiert: Precision = TP/(TP+FP), mit Werten im Bereich von Null (0) bis Eins (1). Präzision ist eine wichtige Kennzahl, wenn die Kosten eines falsch positiven Ergebnisses hoch sind. Die Kosten eines falsch positiven Ergebnisses sind beispielsweise sehr hoch, wenn ein Flugzeugsicherheitssystem fälschlicherweise als flugsicher eingestuft wird. Ein falsch positives Ergebnis (FP) spiegelt eine positive Voraussage wider, die in den Daten tatsächlich negativ ist.

  • Erinnerung – Das Modell hat korrekt vorausgesagt, dass {recall}% {category x} sein würde, obwohl {target_column} tatsächlich {category x} war.

    Der Erinnerungswert misst, wie gut ein Algorithmus alle wirklich positiven Ergebnisse (TP) in einem Datensatz korrekt voraussagt. Ein wirklich positives Ergebnis ist eine positive Voraussage, die auch einen tatsächlich positiver Wert in den Daten darstellt. Der Erinnerungswert ist wie folgt definiert: Recall = TP/(TP+FN), mit Werten im Bereich von 0 bis 1. Höhere Werte spiegeln die bessere Fähigkeit des Modells wider, wirklich positive Ergebnisse (TP) in den Daten vorauszusagen. Oft reicht es nicht aus, nur den Erinnerungswert zu messen, da die Voraussage jeder Ausgabe als wirklich positiv zu einem perfekten Erinnerungswert führt.

Im Folgenden finden Sie eine Liste der verfügbaren Metriken für Vorhersagen in mehr als 3 Kategorien.

  • Genauigkeit – Der Prozentsatz der richtigen Vorhersagen.

    Oder das Verhältnis der Anzahl korrekt vorhergesagter Elemente zur Gesamtzahl der Vorhersagen. Die Genauigkeit gibt an, wie nahe die vorhergesagten Klassenwerte an den tatsächlichen Werten liegen. Die Werte für Genauigkeitsmetriken variieren zwischen Null (0) und Eins (1). Der Wert 1 steht für perfekte Genauigkeit, während 0 für völlige Ungenauigkeit steht.

  • BalancedAccuracy – misst das Verhältnis von genauen Vorhersagen zu allen Vorhersagen.

    Dieses Verhältnis wird berechnet, nachdem wirklich positive (TP) und True negative Werte (TN) durch die Gesamtzahl der positiven (P) und negativen (N) Werte normalisiert wurden. Er ist wie folgt definiert: 0.5*((TP/P)+(TN/N)), mit Werten im Bereich von 0 bis 1. Die Metrik „BalancedAccuracy“ liefert ein besseres Maß für die Genauigkeit, wenn die Anzahl der positiven oder negativen Ergebnisse in einem unausgewogenen Datensatz stark voneinander abweicht, beispielsweise wenn nur 1 % der E-Mails Spam sind.

  • F1-Makro – Der F1makro-Wert wendet die F1-Bewertung an, indem er die Präzision und die Erinnerung berechnet und dann deren harmonisches Mittelwert nimmt, um den F1-Wert für jede Klasse zu berechnen. Anschließend berechnet F1macro den Durchschnitt der einzelnen Werte, um den F1macro-Wert zu erhalten. Die F1macro-Werte variieren zwischen 0 und 1. Ein Wert von 1 steht für die bestmögliche Leistung und 0 für die schlechteste.

  • InferenceLatency – Die ungefähre Zeitspanne zwischen der Anforderung einer Modellprognose und deren Empfang von einem Echtzeit-Endpunkt, auf dem das Modell bereitgestellt ist. Diese Metrik wird in Sekunden gemessen und ist nur für Modelle verfügbar, die im Ensembling-Modus erstellt wurden.

  • LogLoss – Der Protokollverlust, auch bekannt als Kreuz-Entropie-Verlust, ist eine Metrik, die verwendet wird, um die Qualität der Wahrscheinlichkeitsausgaben und nicht die Ergebnisse selbst zu bewerten. Der Protokollverlust ist eine wichtige Kennzahl, die angibt, wann ein Modell mit hoher Wahrscheinlichkeit falsche Voraussagen trifft. Werte liegen zwischen 0 und unendlich. Ein Wert von 0 steht für ein Modell, das die Daten perfekt vorhersagt.

  • PrecisionMacro – misst die Präzision, indem die Präzision für jede Klasse berechnet und die Ergebnisse gemittelt werden, um die Präzision für mehrere Klassen zu erhalten. Die Werte reichen von Null (0) bis Eins (1). Höhere Werte spiegeln die Fähigkeit des Modells wider, wirklich positive Ergebnisse (TP) aus allen identifizierten positiven Ergebnissen vorauszusagen, wobei der Durchschnitt über mehrere Klassen hinweg berechnet wird.

  • PrecisionMacro – misst die Sensitivität, indem es die Sensitivität für jede Klasse berechnet und die Ergebnisse mittelt, um die Sensitivität für mehrere Klassen zu ermitteln. Werte liegen zwischen 0 und 1. Höhere Werte spiegeln die Fähigkeit des Modells wider, wirklich positive Ergebnisse (TP) in einem Datensatz vorauszusagen, wohingegen ein wirklich positives Ergebnis eine positive Voraussage widerspiegelt, die auch ein tatsächlich positiver Wert in den Daten ist. Oft reicht es nicht aus, nur den Erinnerungswert zu messen, da die Voraussage jeder Ausgabe als wirklich positiv zu einem perfekten Erinnerungswert führen wird.

Beachten Sie, dass Sie bei der Vorhersage von 3+ Kategorien auch die durchschnittlichen Metriken F1, Genauigkeit, Präzision und Sensitivität erhalten. Die Punktzahlen für diese Metriken sind lediglich die gemittelten Metrikpunktzahlen für alle Kategorien.

Metriken für Bild- und Textvorhersagen

Im Folgenden finden Sie eine Liste der verfügbaren Metriken für die Bildvorhersage und Textvorhersage.

  • Genauigkeit – Der Prozentsatz der richtigen Vorhersagen.

    Oder das Verhältnis der Anzahl korrekt vorhergesagter Elemente zur Gesamtzahl der Vorhersagen. Die Genauigkeit gibt an, wie nahe die vorhergesagten Klassenwerte an den tatsächlichen Werten liegen. Die Werte für Genauigkeitsmetriken variieren zwischen Null (0) und Eins (1). Der Wert 1 steht für perfekte Genauigkeit, während 0 für völlige Ungenauigkeit steht.

  • F1 – Ein ausgewogenes Maß für Genauigkeit, das das Klassengleichgewicht berücksichtigt.

    Es handelt sich um den harmonischen Mittelwert der Präzisions- und Recall-Werte, der wie folgt definiert ist: F1 = 2 * (precision * recall) / (precision + recall). Die F1-Werte variieren zwischen 0 und 1. Ein Wert von 1 steht für die bestmögliche Leistung und 0 für die schlechteste.

  • Genauigkeit – Von allen Vorhersagen für {category x} war die Vorhersage in {precision} % der Fälle korrekt.

    Mit der Präzision wird gemessen, wie gut ein Algorithmus unter allen von ihm identifizierten positiven Ergebnissen die wirklich positiven Ergebnisse (TP) voraussagt. Er ist wie folgt definiert: Precision = TP/(TP+FP), mit Werten im Bereich von Null (0) bis Eins (1). Präzision ist eine wichtige Kennzahl, wenn die Kosten eines falsch positiven Ergebnisses hoch sind. Die Kosten eines falsch positiven Ergebnisses sind beispielsweise sehr hoch, wenn ein Flugzeugsicherheitssystem fälschlicherweise als flugsicher eingestuft wird. Ein falsch positives Ergebnis (FP) spiegelt eine positive Voraussage wider, die in den Daten tatsächlich negativ ist.

  • Erinnerung – Das Modell hat korrekt vorausgesagt, dass {recall}% {category x} sein würde, obwohl {target_column} tatsächlich {category x} war.

    Der Erinnerungswert misst, wie gut ein Algorithmus alle wirklich positiven Ergebnisse (TP) in einem Datensatz korrekt voraussagt. Ein wirklich positives Ergebnis ist eine positive Voraussage, die auch einen tatsächlich positiver Wert in den Daten darstellt. Der Erinnerungswert ist wie folgt definiert: Recall = TP/(TP+FN), mit Werten im Bereich von 0 bis 1. Höhere Werte spiegeln die bessere Fähigkeit des Modells wider, wirklich positive Ergebnisse (TP) in den Daten vorauszusagen. Oft reicht es nicht aus, nur den Erinnerungswert zu messen, da die Voraussage jeder Ausgabe als wirklich positiv zu einem perfekten Erinnerungswert führt.

Beachten Sie, dass Sie bei Bild- und Textvorhersagemodellen, bei denen Sie drei oder mehr Kategorien vorhersagen, auch die durchschnittlichen F1-, Genauigkeits-, Präzisions- und Recall-Metriken erhalten. Die Punktzahlen für diese Metriken sind lediglich die gemittelten Metrikpunktzahlen für alle Kategorien.

Metriken für Zeitreihenprognosen

Im Folgenden werden die erweiterten Metriken für Zeitreihenprognosen in Amazon SageMaker Canvas definiert und Sie erhalten Informationen darüber, wie Sie sie verwenden können.

  • Average Weighted Quantile Loss (wQL) – Wertet die Prognose aus, indem der Durchschnitt der Genauigkeit anhand der Quantile P10, P50 und P90 berechnet wird. Ein niedrigerer Wert bedeutet ein genaueres Modell.

  • Gewichteter absoluter prozentualer Fehler (WAPE) – Die Summe der absoluten Fehler, normalisiert durch die Summe der absoluten Zielwerte, die die Gesamtabweichung der prognostizierten Werte von den beobachteten Werten messen. Ein niedrigerer Wert steht für ein genaueres Modell, wobei WAPE = 0 ein Modell ohne Fehler ist.

  • Root Mean Square Error (RMSE) – Die Quadratwurzel der durchschnittlichen quadratischen Fehler. Ein niedrigerer RMSE steht für ein genaueres Modell, wobei RMSE = 0 für ein Modell ohne Fehler steht.

  • Mean Absolute Percent Error (MAPE) – Der prozentuale Fehler (prozentuale Differenz zwischen dem mittleren prognostizierten Wert und dem tatsächlichen Wert), der über alle Zeitpunkte gemittelt wird. Ein niedrigerer Wert steht für ein genaueres Modell, wobei MAPE = 0 ein Modell ohne Fehler ist.

  • Mean Absolute Scaled Error (MASE) – Der mittlere absolute Fehler der Prognose, normalisiert durch den mittleren absoluten Fehler einer einfachen Basisprognosemethode. Ein niedrigerer Wert weist auf ein genaueres Modell hin, bei dem MASE < 1 is estimated to be better than the baseline and MASE > 1 als schlechter eingeschätzt wird als der Basiswert.