Kolmogorow-Smirnow (KS) - Amazon SageMaker AI

Kolmogorow-Smirnow (KS)

Die Kolmogorov-Smirnov-Bias-Metrik (KS) entspricht der maximalen Divergenz zwischen Beschriftungen in den Verteilungen für die Facetn a und d eines Datensatzes. Der von SageMaker Clarify implementierte KS-Test mit zwei Stichproben ergänzt die anderen Messwerte für das Ungleichgewicht auf dem Etikett, indem er das Etikett mit der größten Unausgewogenheit ermittelt.

Die Formel für die Kolmogorov-Smirnov-Metrik lautet wie folgt:

        KS = max(|Pa(y) – Pd(y)|)

Nehmen wir zum Beispiel an, dass eine Gruppe von Bewerbern (Facet a) für ein College mit 40%, 40% bzw. 20% abgelehnt, auf die Warteliste gesetzt oder angenommen wurde, und dass diese Quoten für andere Bewerber (Facet d) bei 20%, 10%, 70% liegen. Dann lautet der Metrikwert des Kolmogorov-Smirnov-Bias wie folgt:

KS = max (|0,4-0,2|, |0,4-0,1|, |0,2-0,7|) = 0,5

Dies sagt uns, dass die maximale Divergenz zwischen den Facetnverteilungen 0,5 beträgt und sich auf die Akzeptanzraten auswirkt. Die Gleichung enthält drei Begriffe, da es sich bei den Bezeichnungen um mehrere Klassen mit Kardinalität drei handelt.

Der Bereich der LP-Werte für binäre, mehrkategoriale und kontinuierliche Ergebnisse ist [0, +1], wobei:

  • Werte nahe Null deuten darauf hin, dass die Beschriftungen in allen Ergebniskategorien gleichmäßig auf die Facetten verteilt waren. Beispielsweise erhielten beide Facetn, bei denen ein Kredit beantragt wurde, jeweils 50% der Zusagen und 50% der Ablehnungen.

  • Werte in der Nähe von eins deuten darauf hin, dass sich die Bezeichnungen für ein Ergebnis alle in einer Facet befanden. Beispielsweise erhielt Facet a 100% der Akzeptanzwerte und Facet d keine.

  • Intermittierende Werte deuten auf das relative Ausmaß des maximalen Ungleichgewichts zwischen den Bezeichnungen hin.