Perché le correzioni multiple di ipotesi non sono applicate a tutti gli esperimenti fin dagli albori dei tempi?


24

Sappiamo che dobbiamo applicare correzioni tipo Benjamini Hochberg per test di ipotesi multiple su esperimenti basati su un singolo set di dati, al fine di controllare il tasso di scoperta falsa, altrimenti tutti gli esperimenti che danno un risultato positivo potrebbero essere falsi.

Ma perché non applichiamo questo stesso principio a tutti gli esperimenti dall'inizio dei tempi, indipendentemente da dove provengano i dati?

Dopotutto, oltre la metà dei risultati scientifici pubblicati che sono considerati "significativi" sono ora noti per essere falsi e irriproducibili, e non vi è alcun motivo per cui questo non potrebbe essere altrettanto facilmente del 100%. Dato che gli scienziati tendono solo a pubblicare risultati positivi, non abbiamo idea del numero di risultati negativi, quindi non abbiamo idea se ciò che pubblichiamo sia sempre solo falsi positivi - risultati positivi che sono stati raccolti per pura casualità sotto l'ipotesi nulla. Nel frattempo, non c'è nulla da dire che i calcoli alla base delle correzioni multiple ai test di ipotesi dovrebbero applicarsi solo ai risultati dello stesso set di dati e non ai risultati di tutti i dati sperimentali acquisiti nel tempo.

Sembra che l'intera scienza sia diventata una grande spedizione di pesca basata su ipotesi false o deboli, quindi come possiamo controllarlo?

Come possiamo controllare il tasso di falsa scoperta, se tutto ciò che pubblichiamo mai sono risultati indipendenti presi senza applicare alcuna correzione per il test di ipotesi multiple su tutti gli esperimenti condotti fino ad oggi?

È possibile controllare la percentuale di rilevamento falso senza applicare tale correzione?


2
Si applica la tua domanda meta.stats.stackexchange.com/questions/3049/… . Questo raggruppa diverse affermazioni controverse (in alcuni casi altamente esagerate) con diverse grandi domande. Penso che ciò vada contro il consenso dei consigli già forniti.
Nick Cox,

3
Spiacenti, non so a quali risposte ti riferisci: non vedo riferimenti qui. Non sto votando per chiudere, né (naturalmente) ho alcun desiderio o potere di impedire alle persone di rispondere. Ma, per esempio, "dall'alba dei tempi" è un piccolo esempio di inutile esagerazione e ce ne sono molti altri nel tuo post. Essere provocatori per se stessi, nella mia esperienza di questo sito, non aiuterà la tua domanda di fondo. I lettori devono eliminare lo stile dalla sostanza.
Nick Cox,

3
Grazie per l'invito, ma la vita è breve. Lascerò il mio riferimento incrociato al meta thread come il mio punto principale. Ho dichiarato la mia opinione su stile e sostanza, che qui possono stare in piedi o cadere.
Nick Cox,

9
Se sto facendo scienza, non mi interessa molto delle false scoperte che hai fatto. In effetti, per quanto riguarda la presentazione di una specifica affermazione scientifica, potrei non preoccuparmi molto delle altre false scoperte che ho fatto. Se non sto facendo scienza, potrei anche non preoccuparmi di quali altre false scoperte ho fatto in questa particolare analisi - perché se scelgo il mio tasso di errore di tipo I in base ai costi relativi dei due tipi di errori, ho ho già scelto il compromesso tra i due e non dovrebbe essere corretto per confronti multipli.
Glen_b

2
Fortunatamente altri hanno presentato opinioni simili alle mie con cogenza e chiarezza. Come commento aggiuntivo, sconsiglio di confondere la scienza (qualunque cosa abbia un valore duraturo) con la sua letteratura. Esistono molti modi in cui la letteratura delude: vaghezza, banalità, errori logici, ecc. In astratto tutti sono sconcertati dal pensiero di tutti quei test falsi positivi pubblicati, ma devono essere creduti e fatti valere per avere effetti duraturi. (Se si tratta di una sperimentazione farmacologica, può essere un grosso problema.) Quindi, ci sono molte cose di cui preoccuparsi, ma non credo che la scienza sia condannata.
Nick Cox,

Risposte:


20

p

Ciò introdurrebbe un'età d'oro della scienza e della ragione? No, probabilmente no.


t
H0: I gruppi hanno la stessa media.HUN: I gruppi hanno mezzi diversi.
H0H0l'ipotesi è in un certo senso "noiosa", e i ricercatori in genere si preoccupano di evitare una situazione "falsa positiva" in cui affermano di aver trovato una differenza tra i gruppi in cui nessuno esiste realmente. Pertanto, chiamiamo i risultati "significativi" solo se sembrano improbabili sotto l'ipotesi nulla e, per convenzione, che la soglia di non conformità è fissata al 5%.

H0

I vari approcci di correzione multipla hanno lo scopo di aiutarti a tornare a un tasso di errore nominale che hai già scelto di tollerare per i singoli test. Lo fanno in modi leggermente diversi. I metodi che controllano il tasso di errore familiare , come le procedure Bonferroni , Sidak e Holm , dicono "Volevi il 5% di possibilità di fare un errore su un singolo test, quindi ti assicureremo che non ci siano più di 5 % di possibilità di commettere errori durante tutti i test. " Metodi che controllano il False Discovery Rateinvece dì "Apparentemente stai bene con l'errore fino al 5% delle volte con un singolo test, quindi faremo in modo che non più del 5% delle tue" chiamate "siano sbagliate quando fai più test". (Vedi la differenza?)


Supponiamo ora che tu abbia tentato di controllare il tasso di errore a livello di famiglia di tutti i test di ipotesi mai eseguiti. In sostanza stai dicendo che vuoi una probabilità <5% di rifiutare falsamente qualsiasi ipotesi nulla, mai. Ciò stabilisce una soglia incredibilmente rigorosa e l'inferenza sarebbe effettivamente inutile ma c'è un problema ancora più pressante: la tua correzione globale significa che stai testando "ipotesi composte" assolutamente insensate come

H1:Il farmaco XYZ modifica il conteggio delle cellule T. L'uva cresce meglio in alcuni campi ............Uomini e donne mangiano diverse quantità di gelato

Con le correzioni del False Discovery Rate, il problema numerico non è poi così grave, ma filosoficamente è un casino. Invece, ha senso definire una "famiglia" di test correlati, come un elenco di geni candidati durante uno studio di genomica, o un insieme di bin di tempo-frequenza durante un'analisi spettrale. Adattare la tua famiglia a una domanda specifica ti consente di interpretare il tuo errore di tipo I in modo diretto. Ad esempio, potresti guardare un set di valori p corretti da FWER dai tuoi dati genomici e dire "C'è una probabilità <5% che uno di questi geni sia falso positivo". Questo è molto meglio di una nebulosa garanzia che copre le inferenze fatte da persone che non ti interessano su argomenti che non ti interessano.

Il rovescio della medaglia è che la scelta appropriata di "famiglia" è discutibile e un po 'soggettiva (tutti i geni sono una famiglia o posso solo considerare le chinasi?) Ma dovrebbe essere informato dal tuo problema e non credo a nessuno ha seriamente sostenuto la definizione delle famiglie in modo così esteso.


Che ne dici di Bayes?

L'analisi bayesiana offre un'alternativa coerente a questo problema, se si è disposti ad allontanarsi un po 'dal framework di errore Frequentist Tipo I / Tipo II. Iniziamo con qualche precedente non impegnativo ... beh ... tutto. Ogni volta che impariamo qualcosa, quell'informazione viene combinata con il precedente per generare una distribuzione posteriore, che a sua volta diventa il precedente per la prossima volta che impariamo qualcosa. Questo ti dà una regola di aggiornamento coerente e potresti confrontare diverse ipotesi su cose specifiche calcolando il fattore di Bayes tra due ipotesi. Potresti presumibilmente estrarre grossi pezzi del modello, il che non lo renderebbe nemmeno particolarmente oneroso.

C'è un meme persistente che i metodi bayesiani non richiedono correzioni multiple di confronto. Sfortunatamente, le probabilità posteriori sono solo un'altra statistica di prova per i frequentisti (cioè, le persone che si preoccupano degli errori di tipo I / II). Non hanno proprietà speciali che controllano questo tipo di errori (Perché dovrebbero?) Quindi, sei tornato in un territorio intrattabile, ma forse su un terreno leggermente più di principio.

La contro argomentazione bayesiana è che dovremmo concentrarci su ciò che possiamo sapere ora e quindi questi tassi di errore non sono così importanti.


Sulla riproducibilità

Sembra che tu stia suggerendo che la correzione comparativa multipla impropria sia la ragione dietro molti risultati errati / non riproducibili. Ho la sensazione che altri fattori abbiano maggiori probabilità di essere un problema. Una cosa ovvia è che la pressione di pubblicare porta le persone a evitare esperimenti che sottolineano davvero le loro ipotesi (es. Cattiva progettazione sperimentale).

p


Grazie Matt. Adoro l'idea di un "Sultano statistico". Tuttavia, è possibile controllare il tasso di falsa scoperta senza applicare tale correzione?
Kelvin,

9
Il punto che stavo cercando di sottolineare è che non ha senso preoccuparsi di The False Discovery Rate (o tasso di errore familiare) in tutti gli sforzi umani. Ciò richiederebbe così tanta avversione al rischio che non avresti mai fatto nulla. Invece, mantieni FDR / FWER per singoli esperimenti piuttosto bassi e provi a replicare le cose significative che sono anche interessanti / utili / ecc.
Matt Krause,

Grazie, immagino che alla fine tutto si riduce alla replica delle cose che contano. Ciò è pienamente coerente con la filosofia della scienza, secondo cui nessuna ipotesi può mai essere dimostrata, rafforzata solo nel tempo da esperimenti ripetuti.
Kelvin,

3
+1 per il statistico sultano. Una considerazione importante: come dovrebbe Sultan gestire il fatto che i valori p arrivino successivamente? Un pessimo p = 0,045 in arrivo per primo sarà considerato significativo ma dopo un paio di secoli non avrà alcuna possibilità? Non sembra avere senso (cc a @Kelvin). Un'altra considerazione: immagina che Sultan dovesse aspettare, diciamo 1 anno e applicare la correzione a tutti i risultati dell'anno passato; Mi chiedo quale sarebbe in pratica la soglia alfa adattata. Qualche idea a riguardo, Matt? Questo è (falsamente!) Supponendo che tutti siano d'accordo su un alfa comune.
ameba dice di reintegrare Monica l'

2
@amoeba, questa è una domanda interessante e non sono sicuro di saperlo. Il nostro amato Despot dei dati potrebbe costringere tutti a utilizzare una sorta di progettazione sequenziale, il che potrebbe aiutare, ma sta ancora testando questa strana ipotesi composta. In alternativa, potremmo diventare tutti bayesiani e smettere di preoccuparci della nostra traccia di errori di tipo I / II per la maggior parte del tempo. Questo è un po 'economico (se non puoi batterli, ignorali!), Ma penso che sia vicino a come le persone si comportano nella pratica.
Matt Krause,

7

Penso che tu dipinga deliberatamente una visione pessimistica della scienza prodotta dalla statistica. In effetti, secondo me, la statistica non è solo un insieme di strumenti che forniscono valori p. C'è anche uno stato di rigore, cura e vigilanza su alcuni possibili effetti coinvolti nella procedura di induzione scientifica ... e mentre a mio avviso, tutto ciò che affermi è approssimativamente vero, ecco alcune delle mie opinioni sul perché abbiamo alcune garanzie sulle conoscenze che produciamo:

  • In primo luogo in generale, una conclusione non dovrebbe essere raggiunta solo sotto l'argomento di un valore di p inferiore a una determinata soglia.

  • In secondo luogo, per quanto ne so, gli argomenti del tipo di "oltre la metà dei risultati scientifici pubblicati sono errati" sono pertinenti e interessanti, ma sono calcolati sulla base di valori di p approssimativamente uguali a 0,05 (vedere ad esempio Confusione riguardo a valori di p e tasso di scoperta falsa ) . Per valori di p inferiori l'effetto è molto più basso di quello annunciato e in pratica non è raro ottenere valori di p molto inferiori a 0,05. Inoltre, molte volte una determinata ipotesi è confermata da diverse sotto-ipotesi che riducono nuovamente gli effetti annunciati.

  • In terzo luogo, la questione della riproducibilità è autentica, ma è anche un problema che deve essere affrontato dallo statistico identificando e gestendo effetti confondenti, disegni di gruppo ... e questo può essere fatto molto bene se fatto con competenza e rigore.

  • Infine, a quanto ho capito, uno studio statistico archetipico deve più o meno basarsi sui seguenti 5 passaggi successivi:

    Formulate one or a few hypotheses
    Design the corresponding study
    Acquire the data
    Analyse the data
    Make conclusions about the above hypotheses (and only these ones)
    

    Questa linea guida generale ci impedisce di effettuare spedizioni di pesca come strumento per produrre conclusioni generali.

Per concludere, direi che il tuo intento di proteggerci da cattive conclusioni scientifiche con valori p troppo alti è un po 'illusorio. Preferirei proteggerci da cattive conclusioni scientifiche garantendo e incoraggiando analisi avvertite e adeguate (e vorrei pensare che questo sia un motivo per cui così tante persone qualificate sono qui per aiutare gli altri in questo sito).


2
Non penso che possa essere difensivo. L'attuale questione dell'irriproducibilità nella scienza non è solo "interessante", è in un punto di crisi ed è stata sulla copertina di Nature e persino dell'Economist, dal momento che credere in uno studio particolare (o addirittura sull'efficacia di un farmaco approvato ) ora non è migliore di un lancio di moneta, nonostante miliardi di dollari investiti.
Kelvin,

6
Sono d'accordo che esiste una crisi. Il punto è che puoi controllare la qualità della moneta. Non tutte le carte sono della stessa qualità e dalla mia esperienza a volte è facile individuare la carta difettosa. Non nego il problema
Nego

Ok, grazie, rispetto la tua risposta. Ma ancora da un punto di vista statistico, e indipendentemente dalla qualità degli esperimenti, non possiamo mai controllare il tasso complessivo di falsa scoperta senza applicare tale correzione, vero?
Kelvin,

0

È possibile controllare il tasso di rilevamento falso senza applicare tale correzione?

100un'un'

Ricordare che i tassi di errore (frequentisti) non riguardano in alcun modo le probabilità circa un'ipotesi testata da qualsiasi test individuale, ma come metodi per condurre test con tassi di fallimento a lungo termine garantiti. La correzione per confronti multipli è un altro metodo per garantire tassi di fallimento a lungo termine: uno per costruire metodi composti che contengono più test in modo che alcuni tassi di fallimento a lungo termine garantiti siano validi.

Se conduci un singolo esperimento con 100 test e riferisci che 5 di loro hanno parlato contro il nulla, sostenendo così di aver osservato un risultato reale, nessuno ne rimarrà impressionato, sapendo che in media, tra 100 test di veri null, il 5% lo farà rifiutare; il metodo che hai impiegato, "conduci 100 test e segnala se uno di essi soddisfa la soglia del 5%", ha un tasso di fallimento superiore al 5%. Pertanto, è possibile scegliere di controllare più confronti e segnalare che, ad esempio, 2 test su 100 avevano valori di p inferiori a (5/100 == 0,05)%. Ora utilizzi un metodo che ha di nuovo un tasso di fallimento garantito (per l'errore di riportare almeno un test significativo anche se nessuna ipotesi è falsa) del 5%.

un', soglie non corrette). Al contrario, se tutti testassero sempre 100 ipotesi vere per studio e non applicassero FEW, il numero di esperimenti che riportavano effetti significativi supererebbe il tasso di errore garantito del 5%. (Contrasto con FDR / False Detection Rate, che non è un metodo che garantisce il tasso di segnalazione di qualsiasi test significativo in uno studio di test multipli di ipotesi vere.)


6
Ciò che tu chiami "tasso di scoperte false" nel tuo primo paragrafo non è ciò che è noto come "tasso di false scoperte".
ameba dice Reinstate Monica l'
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.