Implicazioni dell'attuale dibattito sul significato statistico


10

Negli ultimi anni, diversi studiosi hanno sollevato un problema dannoso nel test delle ipotesi scientifiche, soprannominato "grado di libertà dei ricercatori", il che significa che gli scienziati hanno numerose scelte da fare durante la loro analisi che tendono a trovare con un valore p <5%. Queste scelte ambigue sono, ad esempio, il caso da includere, il caso che è classificato come anomalo, eseguendo numerose specifiche del modello fino a quando qualcosa si presenta, non pubblicano risultati nulli, ecc. (Il documento che ha scatenato questo dibattito in psicologia è qui , vedere un popolare articolo Slate e il dibattito di follow-up di Andrew Gelman qui , e la rivista Time tocca anche questo argomento qui .)

Innanzitutto , una domanda di chiarimento:

La rivista Time ha scritto,

"Una potenza di 0,8 significa che su dieci vere ipotesi verificate, ne verranno escluse solo due perché i loro effetti non vengono rilevati nei dati;"

Non sono sicuro di come questo si adatti alla definizione della funzione di potenza che ho trovato nel libro di testo, che è la probabilità di rifiutare il valore nullo in funzione del parametro θ . Con diversi θ abbiamo un potere diverso, quindi non capisco bene la citazione sopra.

In secondo luogo , alcune implicazioni per la ricerca:

  1. Nel mio campo di scienze politiche / economiche, gli studiosi utilizzano semplicemente tutti i dati disponibili per ogni anno. Quindi, non dovremmo preoccuparci di suonare il campione qui?

  2. Il problema di eseguire più test ma di riportare un solo modello può essere risolto semplicemente dal fatto che qualcun altro nella disciplina testerà nuovamente il tuo documento e ti colpirà immediatamente per non avere risultati affidabili? Anticipando questo, gli studiosi nel mio campo hanno maggiori probabilità di includere una robustness checksezione, in cui mostrano che più specifiche del modello non cambiano il risultato. È sufficiente?

  3. Andrew Gelman e altri sottolineano il fatto che, indipendentemente dai dati, sarebbe sempre possibile trovare e pubblicare alcuni "schemi" che in realtà non esistono. Ma questo non dovrebbe essere un problema, dato il fatto che qualsiasi "modello" empirico deve essere supportato da una teoria e le teorie rivali all'interno di una disciplina si impegneranno semplicemente in un dibattito / gara per scoprire quale campo è in grado di trovare più "modelli" in vari luoghi. Se uno schema è veramente falso, allora la teoria alla base verrà rapidamente abbattuta quando non ci sono schemi simili in altri campioni / impostazioni. Non è così che la scienza progredisce?

  4. Supponendo che l'attuale tendenza delle riviste per risultati nulli in realtà fiorirà, c'è un modo per noi di aggregare tutti i risultati nulli e positivi insieme e fare una deduzione sulla teoria che tutti provano a testare?


Vedi anche "Test teorici in psicologia e fisica: un paradosso metodologico" . L '"ipotesi nulla" è sempre falsa per il tuo campo. Anche con pratiche di ricerca adeguate, i test di significatività e i test di ipotesi sono probabilmente inappropriati.
Pallone

La tua domanda 1 è in conflitto con la domanda 3. In polsci / economia ci sono altri campioni / impostazioni disponibili o no?
Pallone

Risposte:


11

Invece di utilizzare i valori p per valutare le affermazioni, dovremmo seguire i consigli di Robert Abelson e utilizzare i criteri MAGIC:

Magnitude
Articulation
Generality
Interestingness
Credibility

Per ulteriori informazioni su Abelson vedi la mia recensione del suo libro

E dovremmo concentrarci sulle dimensioni degli effetti, non sui valori p nell'output statistico (con la possibile eccezione di alcuni tipi di data mining, di cui non sono affatto esperto). E le dimensioni degli effetti devono essere giudicate nel contesto:

1 in 1000 pairs of pants gets the wrong size label - not a big deal
1 in 1000 airplanes are defective in a way that leads to crashes - a big deal
1 in 1000 nuclear reactors is defective in a way that leads to meltdown - uh oh

Uno statistico / analista di dati non dovrebbe essere una persona strana, usata come una scatola nera in cui vengono inseriti i dati e da cui vengono ricavati i valori p; lui / lei dovrebbe essere un collaboratore di ricerca progettato per fare una ragionevole discussione sul significato di un insieme di dati nel contesto di un campo, date le teorie attuali (o la loro mancanza) e le prove attuali (o la mancanza della stessa).

Sfortunatamente, questo approccio richiede pensiero da parte dei ricercatori sostanziali, dell'analista dei dati e di chiunque riveda i risultati (che si tratti di un capo dai capelli appuntiti, un comitato di tesi, un editore di riviste o chiunque). Stranamente, anche gli accademici sembrano contrari a questo tipo di pensiero.

Per ulteriori informazioni sulle mie opinioni, ecco un articolo che ho scritto pubblicato su Sciences360.


4
+1 Anche se sono certamente d'accordo con te, posso immaginare che dire 'la mia richiesta è supportata da MAGIC' potrebbe non essere sempre utile :-)
Marc Claesen

1
Sì, dovresti precisarlo, ma, se lo facessi, penso che potrebbe funzionare: "Questi sono grandi effetti che hanno poche eccezioni, interessano un gran numero di persone, sono interessanti perché XXXX e sono credibili perché XXXX" potrebbe funzionare. Non l'ho visto provato. :-)
Peter Flom

1
Sì; un'affermazione è "credibile" se esiste una teoria che dice come potrebbe accadere; se viene replicato e così via. È meno credibile se non ci sono spiegazioni fisiche o di altra natura teorica. Meno credibile è un reclamo, più prove sono necessarie per questo.
Peter Flom

2
@Anh La credibilità nella scienza dovrebbe essere misurata dal modo in cui le teorie predicono i fenomeni non utilizzati nello sviluppo della teoria. Nel valutare se le previsioni fossero buone, la credibilità richiede una replica da parte di ricercatori indipendenti. Ci sono tonnellate di prove empiriche che test di significatività e test di ipotesi sembrano entrambi scoraggiare effettivamente entrambi i comportamenti, incoraggiando invece le attività controproducenti di distorsioni della pubblicazione e "p-hacking" di un "significato" arbitrario interrotto.
Pallone

1
@Flask - Direi che i valori di p non sono necessariamente il problema, più che l'uso di test di ipotesi deboli è il problema. Anche la fisica usa valori p ma con ipotesi che portano a previsioni puntuali (cioè un'ipotesi nulla reale). Trovare un "effetto positivo" è sostanzialmente inutile per la costruzione della teoria - è necessario fare una stima puntuale per confermare correttamente la teoria.
Probislogic

3

Il campo della scienza statistica ha affrontato questi problemi sin dall'inizio. Continuo a dire che il ruolo dello statista è garantire che il tasso di errore di tipo 1 rimanga fisso. Ciò implica che il rischio di trarre conclusioni false positive non può essere eliminato, ma può essere controllato. Ciò dovrebbe attirare la nostra attenzione sull'enorme volume di ricerche scientifiche condotte piuttosto che verso la filosofia e l'etica della pratica statistica generale. Per ogni risultato incredibile (incredibile) che emerge dai media (o nella politica del governo) almeno 19 altri risultati incredibili sono stati abbattuti per i loro risultati nulli.

In effetti, se vai su, diciamo, clinictrials.gov, noterai che ci sono (per quasi tutte le indicazioni di malattia) ben oltre 1.000 studi clinici per agenti farmaceutici in corso negli Stati Uniti proprio in questo momento. Ciò significa che con un tasso di errore falso positivo di 0,001, in media almeno 1 farmaco verrà messo sugli scaffali senza alcun effetto. La validità di 0,05 come soglia convalidata per il significato statistico è stata contestata più volte. Ironia della sorte, sono solo gli statistici a sentirsi a disagio nell'utilizzare un tasso di errore falsamente positivo di 1/20, mentre gli stakeholder finanziari (siano essi PI o Merck) perseguiranno convinzioni tenacemente indipendentemente dai risultati in vitro, dalle prove teoriche o dalla forza delle prove precedenti. Onestamente, quella tenacia è una qualità personale di successo e lodevole di molte persone che hanno successo in ruoli non statistici. Sono generalmente seduti al di sopra degli statistici, nei loro rispettivi totem, che tendono a sfruttare quella tenacia.

Penso che la citazione di Time che hai presentato sia completamente sbagliata. Il potere è la probabilità di rifiutare l'ipotesi nulla dato che è falso. Ciò dipende soprattutto da quanto "falsa" sia l'ipotesi nulla (che a sua volta dipende da una dimensione misurabile dell'effetto). Raramente parlo di potere fuori dal contesto dell'effetto che riterremmo "interessante" rilevare. (ad esempio, una sopravvivenza di 4 mesi dopo il trattamento chemioterapico del carcinoma pancreatico in stadio 4 non è interessante, quindi non c'è motivo di reclutare 5.000 persone per uno studio di fase 3).

Per rispondere alle domande che hai posto

  1. ???

  2. La molteplicità è difficile perché non porta a un'ovvia regola decisionale su come gestire i dati. Ad esempio, supponiamo di essere interessati a un semplice test della differenza media. Nonostante le infinite proteste dei miei colleghi, è facile dimostrare che un t-test è ben calibrato per rilevare differenze nella media indipendentemente dalla distribuzione campionaria dei dati. Supponiamo che alternativamente abbiamo seguito il loro percorso. Avrebbero iniziato testando la normalità usando alcune varianti di un noto test distributivo (diciamo la calibrazione del qqplot). Se i dati apparissero sufficientemente non normali, avrebbero quindi chiesto se i dati seguissero una trasformazione ben nota, e quindi avrebbero applicato una trasformazione di Box Cox per determinare una trasformazione di potenza (possibilmente logaritmica) che massimizzi l'entropia. Se viene visualizzato un evidente valore numerico, useranno quella trasformazione. In caso contrario, utilizzeranno il test Wilcoxon "senza distribuzione". Per questa sequenza di eventi ad hoc, non posso iniziare a sperare come calcolare la calibrazione e la potenza per un semplice test delle differenze medie quando il semplice, stupido test t sarebbe stato sufficiente. Sospetto che atti stupidi come questo possano essere collegati matematicamente alla stima suprema di Hodge: stimatori che hanno un alto potere in una specifica ipotesi che vogliamo essere veri. Tuttavia, questo processo è s stima super efficiente: stimatori che hanno un alto potere in una specifica ipotesi che vogliamo essere veri. Tuttavia, questo processo è s stima super efficiente: stimatori che hanno un alto potere in una specifica ipotesi che vogliamo essere veri. Tuttavia, questo processo ènon statistico perché il tasso di errore falso positivo non è stato controllato.

  3. Il concetto secondo cui le tendenze possono essere "scoperte" erroneamente in qualsiasi insieme casuale di dati risale probabilmente all'articolo ben scritto di Martin chiamato "Griglia statistica di Munchaesen" . Questa è una lettura molto illuminante e risale al 1984 prima che il vitello d'oro dell'apprendimento automatico ci nascesse come lo conosciamo attualmente. In effetti, un'ipotesi dichiarata correttamente è falsificabile, ma gli errori di tipo 1 sono diventati molto più costosi nella nostra società basata sui dati di quanto non fossero mai stati prima. Considera, ad esempio, l'evidenza falsata della ricerca anti-vaccino che ha portato a una massiccia sequenza di morti per pertosse. I risultati che hanno respinto la defenestrazione pubblica dei vaccini sono stati collegati a un singolo studio(che, sebbene sbagliato, non è stato confermato dalla ricerca esterna). C'è uno slancio etico per condurre i risultati e riferire la forza delle prove onestamente. Quanto sono forti le prove? Ha poco a che fare con il valore p che ottieni, ma il valore p che hai detto che chiameresti significativo. E ricorda, il confondimento dei tuoi dati modifica il valore di p, anche quando il test di conferma finale riporta qualcosa di diverso (spesso molto più piccolo).

  4. SÌ! È possibile vedere chiaramente nelle meta-analisi pubblicate da riviste come il rapporto Cochrane che la distribuzione dei risultati dei test sembra più bimodale rispetto a noraml, con solo risultati positivi e negativi che li trasformano in riviste. Questa prova è assolutamente disastrosa e confusa per chiunque nella pratica clinica. Se, invece, pubblichiamo risultati nulli (che provengono da studi di cui saremmo interessati, indipendentemente da ciò che diventano ), allora possiamo aspettarci che le meta-analisi rappresentino effettivamente prove significative e rappresentative.


1
In " Sulla probabilità come base per l'azione" William Deming fa una distinzione tra studi "enumerativi" e "analitici". Sottolinea che i risultati di ogni esperimento sono condizionati dall'ambiente esatto dell'esperimento, pertanto gli statistici che tentano di controllare il "tasso di errore di tipo I" saranno sempre esclusi da una quantità sconosciuta quando un trattamento viene applicato in condizioni diverse .
Pallone

@Flask Allo stesso modo, nessuna procedura meccanica sulla stazione spaziale internazionale è perfettamente calibrata, ma l'attenzione degli ingegneri per i dettagli e la riduzione al minimo degli errori ha assicurato che non abbiamo trovato una stranezza spaziale nelle nostre mani.
AdamO,

Gli ingegneri (si spera) testano i componenti in tutte le condizioni previste e quindi aggiungono ulteriore margine di errore in base ai modelli che generano. Questo è il tipo di comportamento sostenuto da Deming e si differenzia dal tentativo di trarre conclusioni sulle prestazioni future di un trattamento o relazione tra i fattori dalla valutazione dell'errore di campionamento di un solo studio. È una distinzione molto interessante che non ho mai visto menzionato altrove.
Pallone

Non credo sia affatto difendibile affermare che "un processo non è statistico perché il tasso di errore falso positivo non è stato controllato". C'è molto di più nelle statistiche rispetto al frequentismo con i suoi controlli del tasso di errore, e i bit non frequentisti sono i bit più utili per la scienza. Ti potrebbe piacere leggere il mio recente articolo arXived sull'argomento: arxiv.org/abs/1311.0081
Michael Lew,

1
@Adamo L'assenza di qualsiasi quantificazione delle prove nell'inferenza frequentista è in effetti un'opinione popolare tra bayesiani (e verosimili), ma è ben validata ed è stata espressamente espressa l'opinione di Neyman e Pearson nel primo documento in cui hanno escogitato i metodi frequentisti! Forse dovresti leggere il mio documento con una mente aperta. L'informazione è tutta lì.
Michael Lew,

3

Innanzitutto, non sono uno statistico, ma solo un ricercatore che ha esaminato molte cose negli ultimi anni per capire perché i metodi che osservo usati intorno a me sono così carenti e perché c'è così tanta confusione su concetti di base come il "cosa è un valore p? " Darò la mia prospettiva.

Innanzitutto, una domanda di chiarimento:

La rivista Time ha scritto,

"A power of 0.8 means that of ten true hypotheses tested, only two will be ruled out > because their effects are not picked up in the

dati;"

Non sono sicuro di come questo si adatti alla definizione della funzione di potenza che ho trovato nel libro di testo, che è la probabilità di rifiutare il valore nullo in funzione del parametro θ. Con diversi θ abbiamo un potere diverso, quindi non capisco bene la citazione sopra.

La potenza è una funzione di θ, varianza e dimensione del campione. Non sono sicuro di quale sia la confusione. Anche per molti casi in cui viene utilizzato il test di significatività l'ipotesi nulla di mean1 = mean2 è sempre falsa. In questi casi il significato è solo una funzione della dimensione del campione. Per favore, leggi "Il test teorico in psicologia e fisica: un paradosso metodologico" di Paul Meehl mi ha chiarito molte cose e non ho mai visto una risposta adeguata. Paul Meehl ha alcuni altri documenti su questo che puoi trovare cercando il suo nome.

Nel mio campo di scienze politiche / economiche, gli studiosi utilizzano semplicemente tutti i dati disponibili per ogni anno. Quindi, non dovremmo preoccuparci di suonare il campione qui?

Se leggi l'articolo di Simmons 2011 questa è solo una delle tecniche di "p-hacking" menzionate. Se è vero che esiste un solo set di dati e nessuno ne preleva campioni selettivi, suppongo che non vi sia spazio per aumentare la dimensione del campione.

Il problema di eseguire più test ma di riportare un solo modello può essere risolto semplicemente dal fatto che qualcun altro nella disciplina testerà nuovamente il tuo documento e ti colpirà immediatamente per non avere risultati affidabili? Anticipando questo, gli studiosi nel mio campo hanno maggiori probabilità di includere una sezione di controllo della robustezza, in cui mostrano che più specifiche del modello non cambiano il risultato. È sufficiente?

Se la replica si verificasse senza distorsioni della pubblicazione, non sarebbero necessarie "riviste del risultato nullo". Direi che la sezione di controllo della robustezza è buona ma non è sufficiente in presenza di ricercatori che non pubblicano ciò che considerano risultati nulli. Inoltre, non considererei un risultato solido solo perché più tecniche di analisi sugli stessi dati giungono alla stessa conclusione. Un risultato affidabile è quello che fa una previsione corretta di effetto / correlazione / ecc. Su nuovi dati .

Una replica non ottiene p <0,05 entrambe le volte. La teoria dovrebbe essere considerata più solida se prevedesse un effetto / correlazione / ecc. Diverso da quello utilizzato nel primo studio. Non mi riferisco alla presenza di un effetto o di una correlazione, ma al valore preciso o ad un piccolo intervallo di valori rispetto al possibile intervallo di valori. La presenza di aumento / diminuzione dell'effetto o correlazione positivo / negativo è verosimile al 100% nel caso in cui l'ipotesi nulla sia falsa. Leggi Meehl.

Andrew Gelman e altri sottolineano il fatto che, indipendentemente dai dati, sarebbe sempre possibile trovare e pubblicare alcuni "schemi" che in realtà non esistono. Ma questo non dovrebbe essere un problema, dato il fatto che qualsiasi "modello" empirico deve essere supportato da una teoria e le teorie rivali all'interno di una disciplina si impegneranno semplicemente in un dibattito / gara per scoprire quale campo è in grado di trovare più "modelli" in vari luoghi. Se uno schema è veramente falso, allora la teoria alla base verrà rapidamente abbattuta quando non ci sono schemi simili in altri campioni / impostazioni. Non è così che la scienza progredisce?

La scienza non può funzionare correttamente se i ricercatori non riescono a pubblicare risultati nulli. Anche solo perché lo schema non è stato scoperto nel secondo campione / impostazione non significa che non esiste nelle condizioni dello studio iniziale.

Supponendo che l'attuale tendenza delle riviste per risultati nulli in realtà fiorirà, c'è un modo per noi di aggregare tutti i risultati nulli e positivi insieme e fare una deduzione sulla teoria che tutti provano a testare?

Questa sarebbe una meta-analisi . In questo caso non c'è nulla di speciale nei risultati nulli se non che i ricercatori non li pubblicano perché i valori p erano al di sopra della soglia arbitraria. In presenza di distorsioni della pubblicazione, la meta-analisi è inaffidabile, così come l'intera letteratura che soffre di distorsioni della pubblicazione. Sebbene possa essere utile, la meta-analisi è di gran lunga inferiore per la valutazione di una teoria piuttosto che avere una teoria che faccia una previsione precisa che viene poi testata. La distorsione della pubblicazione non ha importanza tanto quanto le nuove previsioni vengono visualizzate e replicate da gruppi indipendenti.


La mia confusione riguardo alla citazione del Tempo è che la funzione di potenza non dovrebbe essere limitata a quando il valore nullo è vero come implica la citazione. Il dominio della funzione di alimentazione è l'intero spazio dei parametri se non sbaglio. E quindi, non esiste un particolare "potere 0,8" che si possa assegnare a un test.
Heisenberg,

Concordo pienamente con te sul punto che una teoria deve essere testata su nuovi dati. Ma nel caso della scienza politica o della macroeconomia, dove abbiamo solo così tanti paesi e così tanti anni, lo sforzo è necessariamente vanificato allora?
Heisenberg,

@Anh ogni secondo ci sono nuovi dati da aggiungere. La teoria dovrebbe prevedere il futuro. In astronomia, per esempio, si prevedevano le posizioni delle comete. Inoltre si calcola la potenza per un valore di parametro previsto. Quindi, nel caso della citazione, si riferirebbero al potere di testare una teoria che predisse una correlazione di almeno r = .5.
Pallone

Chiarire r = 0,5 sarebbe un esempio di una correlazione prevista da una teoria.
Pallone

2

Direi semplicemente che il test dell'ipotesi nulla riguarda solo l'ipotesi nulla. E generalmente, l'ipotesi nulla non è di solito ciò che è interessante, e potrebbe anche non essere "lo status quo" - specialmente nel tipo di regressione del test di ipotesi. Spesso nelle scienze sociali non esiste uno status quo, quindi l'ipotesi nulla può essere abbastanza arbitraria. Questo fa un'enorme differenza per l'analisi, poiché il punto di partenza non è definito, quindi diverse ricerche stanno iniziando con diverse ipotesi nulle, molto probabilmente basate su qualsiasi dato disponibile. Confronta questo con qualcosa come le leggi del moto di Newton - ha senso avere questa ipotesi nulla e cerca di trovare teorie migliori da questo punto di partenza.

Inoltre, i valori p non calcolano la probabilità corretta - non vogliamo conoscere le probabilità della coda, a meno che l'ipotesi alternativa sia più probabile man mano che ci si sposta ulteriormente nelle code. Quello che vuoi veramente è quanto bene la teoria preveda ciò che è stato effettivamente visto. Ad esempio, suppongo che prevedo che esiste una probabilità del 50% di una "doccia leggera" e che il mio concorrente prevede una probabilità del 75%. Questo risulta essere corretto e osserviamo una leggera doccia. Ora, quando decidi quale persona meteorologica è corretta, non dovresti dare alla mia previsione credito aggiuntivo per aver anche dato una probabilità del 40% di un "temporale", o toglierti credito dal mio concorrente per aver dato al "temporale" una probabilità dello 0%.

ioDH

BF=P(D|Hio)P(D|H¯io)

HBF=H0.001

104,490,00052,263,471y~Bion(n,0.5)y|θ~Bion(n,θ)θ~U(0,1)y~Betun'Bion(n,1,1)~DU(0,...,n)p=0,00015

BF=(ny)2-n1n+1=(n+1)!2ny!(n-y)!=11.90

1n+1=,0000,000096 millions0.00000011

Ciò è particolarmente vero per l'esempio criticato da Gelman: è stata testata solo un'ipotesi e non si è pensato molto a) quali sono le spiegazioni alternative (in particolare su confondimento ed effetti non controllati per), b) quanto sono alternative supportate da ricerche precedenti e, soprattutto, c) quali previsioni fanno (se ve ne sono) che sono sostanzialmente diverse dal nulla?

Ma nota questo H¯H1,...,HKHK0.010.1

K

HK+1=Qualcos'altro non ancora pensato
HK+1H1,...,HKH0HUNH1,...,HK
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.