Differenza nelle proporzioni positive delle etichette previste (DPPL)
La differenza nelle proporzioni positive nella metrica delle etichette previste (DPPL) determina se il modello prevede i risultati in modo diverso per ogni facet. È definita come la differenza tra la proporzione di previsioni positive (y' = 1) per il facet a e la proporzione di previsioni positive (y' = 1) per il facet d. Ad esempio, se le previsioni del modello concedono prestiti al 60% di un gruppo di mezza età (facet a) e al 50% ad altri gruppi di età (facet d), il modello potrebbe essere distorto rispetto al facet d. In questo esempio, è necessario determinare se la differenza del 10% è rilevante ai fini di un’eventuale distorsione.
Un confronto tra DPL (Differenza nelle proporzioni delle etichette), una misura dei bias di preaddestramento, e DPPL, una misura dei bias di post-addestramento, valuta se le proporzioni iniziali di esiti positivi dei bias nel set di dati cambiano dopo l’addestramento. Se DPPL è maggiore di DPL, i bias in proporzioni positive sono aumentati dopo l’addestramento. Se DPPL è minore di DPL, il modello non ha aumentato i bias in proporzioni positive dopo l’addestramento. Il confronto tra DPL e DPPL non garantisce che il modello riduca la bias in tutte le dimensioni. Ad esempio, il modello potrebbe avere ancora dei bias se si considerano altre metriche come Fliptest controfattuale (FT) o Differenza di precisione (AD). Per ulteriori informazioni sul rilevamento dei bias, consulta il post di blog Learn how Amazon SageMaker Clarify helps detect bias
La formula per DPPL è la seguente:
DPPL = q'a - q'd
Dove:
-
q'a = n'a(1)/na è la proporzione prevista del facet a che ottiene un risultato positivo di valore 1. Nel nostro esempio, si tratta della percentuale di persone di mezza età che si prevede otterrà un prestito. Qui n'a(1) rappresenta il numero di membri del facet a che ottengono un risultato previsto positivo di valore 1 e na il numero di membri del facet a.
-
q'd = n'd(1)/nd è la proporzione prevista del facet d che ottiene un risultato positivo di valore 1. Nel nostro esempio, si prevede che un facet di persone anziane e giovani otterrà un prestito. Qui n'd(1) rappresenta il numero di membri del facet d che ottengono un risultato previsto positivo e nd il numero di membri del facet d.
Se DPPL è sufficientemente vicino a 0, significa che la parità demografica post-addestramento è stata raggiunta.
Per le etichette di facet binarie e multicategoria, i valori DPL normalizzati variano nell'intervallo [-1, 1]. Per le etichette continue, i valori variano nell'intervallo (-∞, +∞).
-
I valori DPPL positivi indicano che il facet a ha una percentuale maggiore di risultati positivi previsti rispetto al facet d.
Questo fenomeno viene definito distorsione positiva.
-
I valori di DPPL vicini allo zero indicano una proporzione più equa di risultati positivi previsti tra i facet a e d, mentre un valore pari a zero indica una perfetta parità demografica.
-
I valori DPPL negativi indicano che il facet d ha una percentuale maggiore di risultati positivi previsti rispetto al facet a. Questo fenomeno viene definito distorsione negativa.