p
Ciò introdurrebbe un'età d'oro della scienza e della ragione? No, probabilmente no.
tH0:HUN: I gruppi hanno la stessa media. I gruppi hanno mezzi diversi.
H0H0l'ipotesi è in un certo senso "noiosa", e i ricercatori in genere si preoccupano di evitare una situazione "falsa positiva" in cui affermano di aver trovato una differenza tra i gruppi in cui nessuno esiste realmente. Pertanto, chiamiamo i risultati "significativi" solo se sembrano improbabili sotto l'ipotesi nulla e, per convenzione, che la soglia di non conformità è fissata al 5%.
H0
I vari approcci di correzione multipla hanno lo scopo di aiutarti a tornare a un tasso di errore nominale che hai già scelto di tollerare per i singoli test. Lo fanno in modi leggermente diversi. I metodi che controllano il tasso di errore familiare , come le procedure Bonferroni , Sidak e Holm , dicono "Volevi il 5% di possibilità di fare un errore su un singolo test, quindi ti assicureremo che non ci siano più di 5 % di possibilità di commettere errori durante tutti i test. " Metodi che controllano il False Discovery Rateinvece dì "Apparentemente stai bene con l'errore fino al 5% delle volte con un singolo test, quindi faremo in modo che non più del 5% delle tue" chiamate "siano sbagliate quando fai più test". (Vedi la differenza?)
Supponiamo ora che tu abbia tentato di controllare il tasso di errore a livello di famiglia di
tutti i test di ipotesi mai eseguiti. In sostanza stai dicendo che vuoi una probabilità <5% di rifiutare falsamente qualsiasi ipotesi nulla, mai. Ciò stabilisce una soglia incredibilmente rigorosa e l'inferenza sarebbe effettivamente inutile ma c'è un problema ancora più pressante: la tua correzione globale significa che stai testando "ipotesi composte" assolutamente insensate come
H1:Il farmaco XYZ modifica il conteggio delle cellule T ∧L'uva cresce meglio in alcuni campi ∧... ∧ ... ∧ ... ∧ ... ∧Uomini e donne mangiano diverse quantità di gelato
Con le correzioni del False Discovery Rate, il problema numerico non è poi così grave, ma filosoficamente è un casino. Invece, ha senso definire una "famiglia" di test correlati, come un elenco di geni candidati durante uno studio di genomica, o un insieme di bin di tempo-frequenza durante un'analisi spettrale. Adattare la tua famiglia a una domanda specifica ti consente di interpretare il tuo errore di tipo I in modo diretto. Ad esempio, potresti guardare un set di valori p corretti da FWER dai tuoi dati genomici e dire "C'è una probabilità <5% che uno di questi geni sia falso positivo". Questo è molto meglio di una nebulosa garanzia che copre le inferenze fatte da persone che non ti interessano su argomenti che non ti interessano.
Il rovescio della medaglia è che la scelta appropriata di "famiglia" è discutibile e un po 'soggettiva (tutti i geni sono una famiglia o posso solo considerare le chinasi?) Ma dovrebbe essere informato dal tuo problema e non credo a nessuno ha seriamente sostenuto la definizione delle famiglie in modo così esteso.
Che ne dici di Bayes?
L'analisi bayesiana offre un'alternativa coerente a questo problema, se si è disposti ad allontanarsi un po 'dal framework di errore Frequentist Tipo I / Tipo II. Iniziamo con qualche precedente non impegnativo ... beh ... tutto. Ogni volta che impariamo qualcosa, quell'informazione viene combinata con il precedente per generare una distribuzione posteriore, che a sua volta diventa il precedente per la prossima volta che impariamo qualcosa. Questo ti dà una regola di aggiornamento coerente e potresti confrontare diverse ipotesi su cose specifiche calcolando il fattore di Bayes tra due ipotesi. Potresti presumibilmente estrarre grossi pezzi del modello, il che non lo renderebbe nemmeno particolarmente oneroso.
C'è un meme persistente che i metodi bayesiani non richiedono correzioni multiple di confronto. Sfortunatamente, le probabilità posteriori sono solo un'altra statistica di prova per i frequentisti (cioè, le persone che si preoccupano degli errori di tipo I / II). Non hanno proprietà speciali che controllano questo tipo di errori (Perché dovrebbero?) Quindi, sei tornato in un territorio intrattabile, ma forse su un terreno leggermente più di principio.
La contro argomentazione bayesiana è che dovremmo concentrarci su ciò che possiamo sapere ora e quindi questi tassi di errore non sono così importanti.
Sulla riproducibilità
Sembra che tu stia suggerendo che la correzione comparativa multipla impropria sia la ragione dietro molti risultati errati / non riproducibili. Ho la sensazione che altri fattori abbiano maggiori probabilità di essere un problema. Una cosa ovvia è che la pressione di pubblicare porta le persone a evitare esperimenti che sottolineano davvero le loro ipotesi (es. Cattiva progettazione sperimentale).
p