FPR (tasso di falsi positivi) vs FDR (tasso di scoperta falsi)

20

La seguente citazione proviene dal famoso documento di ricerca Significato statistico per gli studi su tutto il genoma di Storey & Tibshirani (2003):

Ad esempio, un tasso di falsi positivi del 5% significa che in media il 5% delle caratteristiche veramente nulle nello studio sarà chiamato significativo. Un FDR (False Discovery rate) del 5% significa che, tra tutte le funzionalità chiamate significative, il 5% di queste sono in media veramente nulle.

Qualcuno può spiegare cosa significa usare un semplice esempio numerico o visivo? Non riesco a capire cosa significhi. Ho trovato vari post su FDR o FPR da solo, ma non ho trovato nessuno in cui è stato fatto un confronto specifico.

Sarebbe particolarmente utile se qualcuno esperto in questo settore potesse illustrare situazioni in cui una è migliore dell'altra, o entrambe sono buone o cattive.

— 李慕
fonte

3

Ho notato che hai assegnato una risposta a @ mkt's, Naseer. Se la risposta ha risolto la tua domanda, puoi anche accettarla facendo clic sul segno di spunta alla sua sinistra sotto l'indicatore di ricompensa.

— gung - Ripristina Monica

29

Spiegherò questi in diversi modi perché mi ha aiutato a capirlo.

Facciamo un esempio specifico. Stai facendo un test per una malattia su un gruppo di persone. Ora definiamo alcuni termini. Per ciascuno dei seguenti, mi riferisco a un individuo che è stato testato:

Vero positivo (TP) : ha la malattia, identificata come affetta dalla malattia

Falso positivo (FP) : non ha la malattia, identificata come affetta dalla malattia

Vero negativo (TN) : non ha la malattia, identificata come non affetta dalla malattia

Falso negativo (FN) : ha la malattia, identificata come non affetta dalla malattia

Visivamente, questo è in genere mostrato usando la matrice di confusione :

Il tasso di falsi positivi (FPR) è il numero di persone che non hanno la malattia ma sono identificate come affette dalla malattia (tutti i PF), diviso per il numero totale di persone che non hanno la malattia (comprende tutti i PF e i TN) .

F P R = \frac{F P}{F P + T N}

$FPR = \frac{FP}{FP + TN}$

Il tasso di falsa scoperta (FDR) è il numero di persone che non hanno la malattia ma che sono identificate come affette dalla malattia (tutti i PF), diviso per il numero totale di persone che sono identificate come affette dalla malattia (include tutti i PF e i TP ).

F D R = \frac{F P}{F P + T P}

$FDR = \frac{FP}{FP + TP}$

Quindi, la differenza sta nel denominatore, ovvero a cosa stai confrontando il numero di falsi positivi?

L' FPR ti sta dicendo la percentuale di tutte le persone che non hanno la malattia che verrà identificata come affetta dalla malattia.

La FDR ti sta dicendo la percentuale di tutte le persone identificate come affette dalla malattia che non hanno la malattia.

Entrambi sono quindi utili, distinti indicatori di fallimento. A seconda della situazione e delle proporzioni di TP, FP, TN e FN, potresti preoccuparti più dell'uno che dell'altro.

Ora mettiamo alcuni numeri a questo. Hai misurato 100 persone per la malattia e ottieni quanto segue:

Veri positivi (TP) : 12

Falsi positivi (PQ) : 4

Veri negativi (TN) : 76

Falsi negativi (FN) : 8

Per mostrarlo usando la matrice di confusione:

Poi,

F P R = \frac{F P}{F P + T N} = \frac{4}{4 + 76} = \frac{4}{80} = 0.05 = 5 %

$FPR = \frac{FP}{FP + TN} = \frac{4}{4 + 76} = \frac{4}{80} = 0.05 = 5\%$

F D R = \frac{F P}{F P + T P} = \frac{4}{4 + 12} = \frac{4}{16} = 0.25 = 25 %

$FDR = \frac{FP}{FP + TP} = \frac{4}{4 + 12} = \frac{4}{16} = 0.25 = 25\%$

In altre parole,

L'FPR ti dice che il 5% delle persone che non ha avuto la malattia è stato identificato come affetto dalla malattia. La FDR ti dice che il 25% delle persone identificate come affette dalla malattia in realtà non aveva la malattia.

EDIT basato sul commento di @ amoeba (anche i numeri nell'esempio sopra):

$n$

[Nota a margine: Wikipedia sottolinea che sebbene l'FPR sia matematicamente equivalente al tasso di errore di tipo I, è considerato concettualmente distinto perché uno è in genere impostato a priori mentre l'altro è in genere utilizzato per misurare le prestazioni di un test in seguito. Questo è importante ma non ne discuterò qui].

E per un po 'più di completezza:

Ovviamente, FPR e FDR non sono le uniche metriche rilevanti che è possibile calcolare con le quattro quantità nella matrice di confusione. Delle molte possibili metriche che possono essere utili in contesti diversi , due relativamente comuni che è probabile che si verifichino sono:

True Positive Rate (TPR) , noto anche come sensibilità , è la percentuale di persone che hanno la malattia identificata come affetta dalla malattia.

T P R = \frac{T P}{T P + F N}

$TPR = \frac{TP}{TP + FN}$

Il vero tasso negativo (TNR) , noto anche come specificità , è la percentuale di persone che non hanno la malattia che viene identificata come non affetta dalla malattia.

T N R = \frac{T N}{T N + F P}

$TNR = \frac{TN}{TN + FP}$

— mkt - Ripristina Monica
fonte

3

+1. Potrebbe avere senso regolare l'esempio numerico in modo che FPR = 5% perché è quello che si avrà se si utilizza p <0,05 come criterio (supponendo che il test abbia dimensioni corrette). O 1% se p <0,01, qualunque cosa. Sottolineare questa connessione potrebbe essere utile per alcuni lettori.

— ameba dice di reintegrare Monica il

1

@amoeba Grazie, questa è una buona idea. Proverò a farlo più tardi.

— mkt - Ripristina Monica il

2

Dovresti esaminare la tabella in https://en.wikipedia.org/wiki/Confusion_matrix . Si noti che FPR è posizionato verticalmente mentre FDR è orizzontale.

FP si verifica se la tua ipotesi nulla è vera ma la rifiuti
La FD accade se prevedi qualcosa di significativo ma non dovresti

— SmallChess
fonte

Lo so, ma sono specificamente interessato al confronto, come se tu potessi aiutare a spiegare quel concetto con alcuni numeri e la visualizzazione per supportare i tuoi numeri che sarebbe molto interessante.

— 李慕