Regressionsmetriken Binäre Klassifikationsmetriken Mehrklassen-Metriken Überwachung von Modellqualitätsmetriken mit CloudWatch

Modellqualitätskennzahlen und CloudWatch Amazon-Überwachung

Bei Aufträgen zur Überwachung der Modellqualität werden verschiedene Metriken berechnet, um die Qualität und Leistung Ihrer Modelle für Machine Learning zu bewerten. Die spezifischen berechneten Metriken hängen von der Art des ML-Problems ab: Regression, binäre Klassifikation oder Mehrklassen-Klassifizierung. Die Überwachung dieser Metriken ist entscheidend für die Erkennung von Modellabweichungen im Laufe der Zeit. In den folgenden Abschnitten werden die wichtigsten Modellqualitätskennzahlen für jeden Problemtyp sowie die Einrichtung automatisierter Überwachungs- und Warnmeldungen behandelt, mit denen Sie CloudWatch die Leistung Ihres Modells kontinuierlich verfolgen können.

Anmerkung

Die Standardabweichung für Metriken wird nur angegeben, wenn mindestens 200 Stichproben verfügbar sind. Model Monitor berechnet die Standardabweichung, indem 80 % der Daten fünfmal nach dem Zufallsprinzip ausgewählt werden, die Metrik berechnet und die Standardabweichung für diese Ergebnisse verwendet wird.

Regressionsmetriken

Im Folgenden finden Sie ein Beispiel für die Metriken, die Model Quality Monitor für ein Regressionsproblem berechnet.


"regression_metrics" : {
    "mae" : {
      "value" : 0.3711832061068702,
      "standard_deviation" : 0.0037566388129940394
    },
    "mse" : {
      "value" : 0.3711832061068702,
      "standard_deviation" : 0.0037566388129940524
    },
    "rmse" : {
      "value" : 0.609248066149471,
      "standard_deviation" : 0.003079253267651125
    },
    "r2" : {
      "value" : -1.3766111872212665,
      "standard_deviation" : 0.022653980022771227
    }
  }

Binäre Klassifikationsmetriken

Im Folgenden finden Sie ein Beispiel für die Metriken, die Model Quality Monitor für ein binäres Klassifikationsproblem berechnet.


"binary_classification_metrics" : {
    "confusion_matrix" : {
      "0" : {
        "0" : 1,
        "1" : 2
      },
      "1" : {
        "0" : 0,
        "1" : 1
      }
    },
    "recall" : {
      "value" : 1.0,
      "standard_deviation" : "NaN"
    },
    "precision" : {
      "value" : 0.3333333333333333,
      "standard_deviation" : "NaN"
    },
    "accuracy" : {
      "value" : 0.5,
      "standard_deviation" : "NaN"
    },
    "recall_best_constant_classifier" : {
      "value" : 1.0,
      "standard_deviation" : "NaN"
    },
    "precision_best_constant_classifier" : {
      "value" : 0.25,
      "standard_deviation" : "NaN"
    },
    "accuracy_best_constant_classifier" : {
      "value" : 0.25,
      "standard_deviation" : "NaN"
    },
    "true_positive_rate" : {
      "value" : 1.0,
      "standard_deviation" : "NaN"
    },
    "true_negative_rate" : {
      "value" : 0.33333333333333337,
      "standard_deviation" : "NaN"
    },
    "false_positive_rate" : {
      "value" : 0.6666666666666666,
      "standard_deviation" : "NaN"
    },
    "false_negative_rate" : {
      "value" : 0.0,
      "standard_deviation" : "NaN"
    },
    "receiver_operating_characteristic_curve" : {
      "false_positive_rates" : [ 0.0, 0.0, 0.0, 0.0, 0.0, 1.0 ],
      "true_positive_rates" : [ 0.0, 0.25, 0.5, 0.75, 1.0, 1.0 ]
    },
    "precision_recall_curve" : {
      "precisions" : [ 1.0, 1.0, 1.0, 1.0, 1.0 ],
      "recalls" : [ 0.0, 0.25, 0.5, 0.75, 1.0 ]
    },
    "auc" : {
      "value" : 1.0,
      "standard_deviation" : "NaN"
    },
    "f0_5" : {
      "value" : 0.3846153846153846,
      "standard_deviation" : "NaN"
    },
    "f1" : {
      "value" : 0.5,
      "standard_deviation" : "NaN"
    },
    "f2" : {
      "value" : 0.7142857142857143,
      "standard_deviation" : "NaN"
    },
    "f0_5_best_constant_classifier" : {
      "value" : 0.29411764705882354,
      "standard_deviation" : "NaN"
    },
    "f1_best_constant_classifier" : {
      "value" : 0.4,
      "standard_deviation" : "NaN"
    },
    "f2_best_constant_classifier" : {
      "value" : 0.625,
      "standard_deviation" : "NaN"
    }
  }

Mehrklassen-Metriken

Im Folgenden finden Sie ein Beispiel für die Metriken, die Model Quality Monitor für ein Klassifizierungsproblem mit mehreren Klassen berechnet.


"multiclass_classification_metrics" : {
    "confusion_matrix" : {
      "0" : {
        "0" : 1180,
        "1" : 510
      },
      "1" : {
        "0" : 268,
        "1" : 138
      }
    },
    "accuracy" : {
      "value" : 0.6288167938931297,
      "standard_deviation" : 0.00375663881299405
    },
    "weighted_recall" : {
      "value" : 0.6288167938931297,
      "standard_deviation" : 0.003756638812994008
    },
    "weighted_precision" : {
      "value" : 0.6983172269629505,
      "standard_deviation" : 0.006195912915307507
    },
    "weighted_f0_5" : {
      "value" : 0.6803947317178771,
      "standard_deviation" : 0.005328406973561699
    },
    "weighted_f1" : {
      "value" : 0.6571162346664904,
      "standard_deviation" : 0.004385008075019733
    },
    "weighted_f2" : {
      "value" : 0.6384024354394601,
      "standard_deviation" : 0.003867109755267757
    },
    "accuracy_best_constant_classifier" : {
      "value" : 0.19370229007633588,
      "standard_deviation" : 0.0032049848450732355
    },
    "weighted_recall_best_constant_classifier" : {
      "value" : 0.19370229007633588,
      "standard_deviation" : 0.0032049848450732355
    },
    "weighted_precision_best_constant_classifier" : {
      "value" : 0.03752057718081697,
      "standard_deviation" : 0.001241536088657851
    },
    "weighted_f0_5_best_constant_classifier" : {
      "value" : 0.04473443104152011,
      "standard_deviation" : 0.0014460485504284792
    },
    "weighted_f1_best_constant_classifier" : {
      "value" : 0.06286421244683643,
      "standard_deviation" : 0.0019113576884608862
    },
    "weighted_f2_best_constant_classifier" : {
      "value" : 0.10570313141262414,
      "standard_deviation" : 0.002734216826748117
    }
  }

Überwachung von Modellqualitätsmetriken mit CloudWatch

Wenn Sie True bei der Erstellung des Überwachungsplans enable_cloudwatch_metrics den Wert für auf festlegen, senden Jobs zur Überwachung der Modellqualität alle Messwerte an CloudWatch.

Kennzahlen zur Modellqualität werden im folgenden Namespace angezeigt:

Für Echtzeit-Endpunkte: aws/sagemaker/Endpoints/model-metrics
Erstellen Sie Stapeltransformationsaufträge: aws/sagemaker/ModelMonitoring/model-metrics

Eine Liste der ausgegebenen Metriken finden Sie in den vorherigen Abschnitten auf dieser Seite.

Sie können CloudWatch Metriken verwenden, um einen Alarm auszulösen, wenn eine bestimmte Metrik den von Ihnen angegebenen Schwellenwert nicht erreicht. Anweisungen zum Erstellen von CloudWatch Alarmen finden Sie unter Erstellen eines CloudWatch Alarms auf der Grundlage eines statischen Schwellenwerts im CloudWatch Benutzerhandbuch.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erfassen von Ground-Truth-Labels und Zusammenführen mit Vorhersagen

Bias-Drift