Spiegherò questi in diversi modi perché mi ha aiutato a capirlo.
Facciamo un esempio specifico. Stai facendo un test per una malattia su un gruppo di persone. Ora definiamo alcuni termini. Per ciascuno dei seguenti, mi riferisco a un individuo che è stato testato:
Vero positivo (TP) : ha la malattia, identificata come affetta dalla malattia
Falso positivo (FP) : non ha la malattia, identificata come affetta dalla malattia
Vero negativo (TN) : non ha la malattia, identificata come non affetta dalla malattia
Falso negativo (FN) : ha la malattia, identificata come non affetta dalla malattia
Visivamente, questo è in genere mostrato usando la matrice di confusione :
Il tasso di falsi positivi (FPR) è il numero di persone che non hanno la malattia ma sono identificate come affette dalla malattia (tutti i PF), diviso per il numero totale di persone che non hanno la malattia (comprende tutti i PF e i TN) .
FPR = FPFP+ TN
Il tasso di falsa scoperta (FDR) è il numero di persone che non hanno la malattia ma che sono identificate come affette dalla malattia (tutti i PF), diviso per il numero totale di persone che sono identificate come affette dalla malattia (include tutti i PF e i TP ).
FD R = FPFP+ TP
Quindi, la differenza sta nel denominatore, ovvero a cosa stai confrontando il numero di falsi positivi?
L' FPR ti sta dicendo la percentuale di tutte le persone che non hanno la malattia che verrà identificata come affetta dalla malattia.
La FDR ti sta dicendo la percentuale di tutte le persone identificate come affette dalla malattia che non hanno la malattia.
Entrambi sono quindi utili, distinti indicatori di fallimento. A seconda della situazione e delle proporzioni di TP, FP, TN e FN, potresti preoccuparti più dell'uno che dell'altro.
Ora mettiamo alcuni numeri a questo. Hai misurato 100 persone per la malattia e ottieni quanto segue:
Veri positivi (TP) : 12
Falsi positivi (PQ) : 4
Veri negativi (TN) : 76
Falsi negativi (FN) : 8
Per mostrarlo usando la matrice di confusione:
Poi,
FPR = FPFP+ TN= 44 + 76= 480= 0,05 = 5 %
FD R = FPFP+ TP= 44 + 12= 416= 0,25 = 25 %
In altre parole,
L'FPR ti dice che il 5% delle persone che non ha avuto la malattia è stato identificato come affetto dalla malattia. La FDR ti dice che il 25% delle persone identificate come affette dalla malattia in realtà non aveva la malattia.
EDIT basato sul commento di @ amoeba (anche i numeri nell'esempio sopra):
n
[Nota a margine: Wikipedia sottolinea che sebbene l'FPR sia matematicamente equivalente al tasso di errore di tipo I, è considerato concettualmente distinto perché uno è in genere impostato a priori mentre l'altro è in genere utilizzato per misurare le prestazioni di un test in seguito. Questo è importante ma non ne discuterò qui].
E per un po 'più di completezza:
Ovviamente, FPR e FDR non sono le uniche metriche rilevanti che è possibile calcolare con le quattro quantità nella matrice di confusione. Delle molte possibili metriche che possono essere utili in contesti diversi , due relativamente comuni che è probabile che si verifichino sono:
True Positive Rate (TPR) , noto anche come sensibilità , è la percentuale di persone che hanno la malattia identificata come affetta dalla malattia.
TPR = TPTP+ FN
Il vero tasso negativo (TNR) , noto anche come specificità , è la percentuale di persone che non hanno la malattia che viene identificata come non affetta dalla malattia.
TNR = TNTN+ FP