Lp-Norm (LP)
Die Lp-Norm (LP) misst den P-Norm-Abstand zwischen den Facettenverteilungen der beobachteten Markierungen in einem Trainingsdatensatz. Diese Metrik ist nicht negativ und kann daher keine umgekehrte Verzerrung erkennen.
Die Formel für die Lp-Norm lautet wie folgt:
Lp(Pa, Pd) = ( ∑y||Pa – Pd||p)1/p
Wobei der P-Norm-Abstand zwischen den Punkten x und y wie folgt definiert ist:
Lp(x, y) = (|x1-y1|p + |x2-y2|p + … +|xn-yn|p)1/p
Die 2-Norm ist die euklidische Norm. Nehmen wir an, Sie haben eine Ergebnisverteilung mit drei Kategorien, z. B. yi = {y0, y1, y2} = {akzeptiert, auf die Warteliste gesetzt, abgelehnt} in einem Szenario mit mehreren Kategorien für Hochschulzulassungen. Sie nehmen die Summe der Quadrate der Differenzen zwischen den Ergebniszahlen für die Facetten a und d. Die resultierende euklidische Entfernung wird wie folgt berechnet:
L2(Pa, Pd) = [(na(0) – nd(0))2 + (na(1) – nd(1))2 + (na(2) – nd(2))2]1/2
Wobei gilt:
-
na(i) ist die Zahl der Ergebnisse der Kategorie i in Facet a: zum Beispiel ist n a(0) die Anzahl der Akzeptanzzahlen in Facet a.
-
nd(i) ist die Anzahl der Ergebnisse der Kategorie i in Facet d: n d(2) ist beispielsweise die Anzahl der Ablehnungen in der Facet d.
Der Bereich der LP-Werte für binäre, mehrkategoriale und kontinuierliche Ergebnisse ist [0, √2), wobei:
-
Werte nahe Null bedeuten, dass die Beschriftungen ähnlich verteilt sind.
-
Positive Werte bedeuten, dass die Labelverteilungen divergieren. Je positiver, desto größer die Divergenz.
-