Quando correggere i valori di p in più confronti?


11

Temo che le domande correlate non abbiano risposto alle mie. Valutiamo le prestazioni di> 2 classificatori (apprendimento automatico). La nostra ipotesi nulla è che le prestazioni non differiscano. Eseguiamo test parametrici (ANOVA) e non parametrici (Friedman) per valutare questa ipotesi. Se sono significativi, vogliamo scoprire quali classificatori differiscono in una ricerca post-hoc.

La mia domanda è duplice:

1) È necessaria una correzione dei valori di p dopo test comparativi multipli? Il sito Wikipedia tedesco su "Alphafehler Kumulierung" afferma che il problema si verifica solo se vengono verificate più ipotesi sugli stessi dati. Quando si confrontano i classificatori (1,2), (1,3), (2,3), i dati si sovrappongono solo parzialmente. È ancora necessario correggere i valori p?

2) La correzione del valore P viene spesso utilizzata dopo il test a coppie con un test t. È necessario anche quando si eseguono test specialistici post-hoc, come il test Nemenyi (non parametrico) o HSD di Tukey? Questa risposta dice "no" per l'HSD di Tukey: il test HSD di Tukey è corretto per confronti multipli? . Esiste una regola o devo cercarla per ogni potenziale test post-hoc?

Grazie!


Perché stai eseguendo entrambi i test ANOVA e Friedman?
Alexis,

Si tratta di un framework di test automatizzato che dovrebbe fornire al revisore un'alternativa sia parametrica che non parametrica, se le ipotesi parametriche non sono soddisfatte.
Chris,

1
Informazioni sui test omnibus che hai citato: (A) se i tuoi gruppi di dati sono indipendenti, dovresti usare il test ANOVA (parametrico) o Kruskal-Wallis (non parametrico); (B) se i tuoi gruppi sono dipendenti (ad es. Misure ripetute), dovresti usare il test ANOVA (parametrico) o Friedman (non parametrico) su misure ripetute. (Classica) ANOVA e Friedman test in quanto la sua alternativa non sembra corretta.
GegznaV,

Risposte:


10

Risposta alla domanda 1
È necessario adeguarsi a confronti multipli se si tiene conto della probabilità con cui si commetterà un errore di tipo I. Una semplice combinazione di esperimento metafora / pensiero può aiutare:

Immagina di voler vincere alla lotteria. Questa lotteria, stranamente, ti dà una probabilità 0,05 di vincere (cioè 1 su 20). M è il costo del biglietto in questa lotteria, il che significa che il tuo ritorno previsto per una singola chiamata alla lotteria è M / 20. Ora ancora più strano, immagina che per ragioni sconosciute, questo costo, M , ti permetta di avere tutti i biglietti della lotteria che vuoi (o almeno più di due). Pensando a te stesso "più giochi, più vinci" prendi un sacco di biglietti. Il rendimento atteso per una chiamata alla lotteria non è più M / 20, ma qualcosa di leggermente più grande. Ora sostituisci "vincere alla lotteria" con "commettere un errore di tipo I."

Se non ti preoccupi degli errori e non ti preoccupi delle persone che indirizzano ripetutamente e beffardamente la tua attenzione su un determinato cartone animato di jellybeans , vai avanti e non adattarti a confronti multipli.

La questione degli "stessi dati" si pone nei metodi di correzione degli errori a livello familiare (ad esempio Bonferroni, Holm-Sidák, ecc.), Poiché il concetto di "famiglia" è piuttosto vago. Tuttavia, i metodi del tasso di scoperta falsa (ad esempio Benjamini e Hochberg, Benjamini e Yeuketeli, ecc.) Hanno una proprietà che i loro risultati sono solidi in diversi gruppi di inferenze.



α


2
+1 per una risposta completa e divertente (e per fare riferimento a xkcd). In particolare, hai anche affrontato la mia domanda ancora non equilibrata se c'è una differenza tra "test di Bonferroni" e "correzione di Bonferroni". Tuttavia, ti dispiacerebbe spiegare il problema dei confronti multipli in termini di descrizione del mio problema? Capisco che un classificatore è come un gruppo di trattamento con nessun / jelly bean blu / verde / ... nel fumetto.
Chris,

pp

Penso che vada bene, grazie mille! Potrebbe volerci un po 'più di tempo per applicare l'esempio della lotteria al mio caso d'uso, ma ho avuto l'idea.
Chris,

@Chris capisce che la lotteria era solo una metafora. Se hai bisogno di aiuto per applicare i metodi FWER o FDR, dai un'occhiata alle voci di Wikipedia, cerca qui le domande correlate o, forse, fai una nuova domanda a riguardo. :)
Alexis,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.