Cumming (2008) afferma che la distribuzione dei valori p ottenuti nelle repliche dipende solo dal valore p originale. Come può essere vero?


52

Ho letto la replica dipp p p Geoff Cumming del 2008 e Intervalli di : i valori di predicono solo vagamente il futuro, ma gli intervalli di confidenza fanno molto meglio [~ 200 citazioni in Google Scholar] - e sono confuso da una delle sue affermazioni centrali. Questo è uno della serie di articoli in cui Cumming discute contro i valori e in favore di intervalli di confidenza; la mia domanda, tuttavia, non riguarda questo dibattito e riguarda solo un'affermazione specifica sui valori .pp

Vorrei citare dall'abstract:

Questo articolo mostra che, se un esperimento iniziale ha come risultato a due code , esiste una probabilità il valore una coda di una replica cada nell'intervallo , un che e completamente una probabilità del che . Sorprendentemente, l'intervallo, definito intervallo , è così ampio quanto grande è la dimensione del campione.p=.0580%p(.00008,.44)10%p<.0000810%p>.44p

Cumming rivendicazioni che questa " intervallo", e in effetti l'intera distribuzione di -Valori che si otterrebbe nel replicare l'esperimento originale (con la stessa dimensione del campione fissa), dipende solo sull'originale -value e non dipendono dalle dimensioni effettive dell'effetto, dalla potenza, dalle dimensioni del campione o da altro:pp p o b tpppobt

[...] la distribuzione di probabilità di può essere derivata senza conoscere o assumere un valore per (o potenza). [...] Non assumiamo alcuna conoscenza precedente di e utilizziamo solo le informazioni che [ osservata tra i gruppi] fornisce su come base per il calcolo di un dato della distribuzione di intervalli e .pδδMdiffδpobtpp

Cumming 2008

Sono confuso da questo perché a me sembra che la distribuzione dei valori dipenda fortemente dal potere, mentre l'originale da solo non fornisce alcuna informazione al riguardo. È possibile che la dimensione dell'effetto reale sia e che quindi la distribuzione sia uniforme; o forse la vera dimensione dell'effetto è enorme e quindi dovremmo aspettarci valori lo più piccoli . Ovviamente si può partire dal presupporre che alcune dimensioni di effetto siano possibili rispetto ad altre e integrarsi al suo interno, ma Cumming sembra affermare che questo non è ciò che sta facendo.p o b t δ = 0 pppobtδ=0p

Domanda: cosa sta succedendo esattamente qui?


Tieni presente che questo argomento è correlato a questa domanda: quale frazione di esperimenti ripetuti avrà una dimensione dell'effetto nell'intervallo di confidenza del 95% del primo esperimento? con un'ottima risposta di @whuber. Cumming ha pubblicato un articolo su questo argomento a: Cumming e Maillardet, 2006, Intervalli di confidenza e replica: dove cadrà il prossimo medio? - ma quello è chiaro e senza problemi.

Noto anche che l'affermazione di Cumming è ripetuta più volte nel documento sui Metodi della natura del 2015. Il valore incostante di genera risultati irreproducibiliP che alcuni di voi potrebbero aver incontrato (ha già ~ 100 citazioni in Google Scholar):

[...] ci sarà una variazione sostanziale nel valore di esperimenti ripetuti. In realtà, gli esperimenti si ripetono raramente; non sappiamo quanto potrebbe essere diversa la prossimaMa è probabile che potrebbe essere molto diverso. Ad esempio, indipendentemente dal potere statistico di un esperimento, se un singolo replicato restituisce un valore di , esiste una probabilità che un esperimento ripetuto restituisca un valore compreso tra e (e una variazione del [sic] che sarebbe ancora più grande).P P 0,05 80 % P 0 0,44 20 % PPPP0.0580%P00.4420%P

(Nota, a proposito, come, indipendentemente dal fatto che l'affermazione di Cumming sia corretta o meno, il documento di Nature Methods lo cita in modo inesatto: secondo Cumming, è solo il probabilità sopra . E sì, l'articolo dice "20% chan g e ". Pfff.)0,4410%0.44


8
Nessun tipo di affermazione come questa dovrebbe essere subordinata a un presunto stato di natura - e per impostazione predefinita questa non sarebbe l'ipotesi nulla? Per semplici ipotesi nulle e una statistica distribuita continuamente , il valore p ha una distribuzione uniforme. Tutto deriva da quel fatto.
whuber

4
@whuber Bene, le distribuzioni mostrate nella Figura 5 che ho riprodotto qui non sono chiaramente uniformi. Concordo tuttavia sul fatto che una tale distribuzione, a quanto pare, deve essere subordinata allo stato di natura, ma Cumming sembra rivendicare il contrario. Da qui la mia domanda: cosa sta realmente succedendo in questo documento? Sto fraintendendo il reclamo? La carta è semplicemente sbagliata? Possiamo capire alcune ipotesi nascoste? Ecc.
ameba dice Reinstate Monica il

Nota per me: questo arxiv.org/abs/1609.01664 è apparentemente correlato ma una rapida occhiata non ha risolto il mio perplessità.
ameba dice Ripristina Monica l'

1
Vorrei non aver dato le finali questa settimana o che ci avrei passato un po 'di tempo. Non ha senso che un successivo valore p dipenda dalla potenza, a condizione che entrambe le dimensioni dei campioni siano uguali. Il valore p osservato dovrebbe dipendere solo dal valore reale di un parametro e dalla scelta di null. L'utilità della stima dipende dalla potenza, ma non è una domanda qui.
Dave Harris,

3
Sono fuori dalla mia portata qui ... ma sfogliando la carta, sembra che tutto sia nel contesto del test per una differenza significativa in mezzo a due popolazioni gaussiane con la stessa varianza nota e dimensioni del campione, con un valore nullo di 0 . È corretto? (ad es. dove sotto il null.) O il documento ha un ambito più ampio, poiché domanda / commenti qui sembrano indicare? z=Æuz=Δx¯σN2Nz,1z=ΔμσN2=0
GeoMatt22,

Risposte:


21

Riepilogo: il trucco sembra essere un approccio bayesiano che assume un'uniforme ( Jeffreys ) prima del parametro nascosto ( nell'appendice B del documento, qui). θzμθ

Credo che ci possa essere un approccio in stile bayesiano per ottenere le equazioni riportate nell'appendice B.

A quanto ho capito, l'esperimento si riduce a una statistica . La media della distribuzione campionaria è sconosciuta, ma svanisce sotto l'ipotesi nulla, .zNθ,1θθH0=0

Chiama la statistica osservata sperimentalmente . Quindi se assumiamo una "uniforme" ( impropria ) prima di , il posteriore bayesiano è . Se poi aggiorniamo la distribuzione di campionamento originale emarginando su , il posteriore diventa . (La varianza raddoppiata è dovuta alla convoluzione dei gaussiani.)z^θNθ,1θ1θz^Nz^,1θz^zz^Nz^,2

Almeno matematicamente, questo sembra funzionare. E spiega come il fattore "magicamente" appare andando dall'equazione B2 all'equazione B3.12


Discussione

Come si può conciliare questo risultato con il framework di test di ipotesi null standard? Una possibile interpretazione è la seguente.

Nel quadro standard, l'ipotesi nulla è in un certo senso il "default" (ad esempio parliamo di "rifiuto del null"). Nel suddetto contesto bayesiano questo sarebbe un precedente non uniforme che preferisce . Se consideriamo questo come , allora la varianza rappresenta la nostra precedente incertezza.θ=0θN0,λ2λ2

Portando questo in precedenza attraverso l'analisi precedente, troviamo Da questo possiamo vedere che nel limite recuperiamo l'analisi sopra. Ma nel limite nostri "posteriori" diventano nulli, e , quindi recuperiamo il risultato standard, .λλ0θ | z ~N0,0z | z ~N0,1p | z ~U0,1

θN0,λ2θz^Nδ2z^,δ2,zz^Nδ2z^,1+δ2,δ211+λ2[0,1]
λλ0θz^N0,0zz^N0,1pz^U0,1

(Per studi ripetuti, quanto sopra suggerisce una domanda interessante qui sulle implicazioni per l'aggiornamento bayesiano rispetto ai metodi "tradizionali" per la meta-analisi. Sono completamente ignorante in materia di meta-analisi però!)


Appendice

Come richiesto nei commenti, ecco un diagramma per il confronto. Questa è un'applicazione relativamente semplice delle formule nel documento. Tuttavia, li scriverò per garantire nessuna ambiguità.

Sia il valore p unilaterale della statistica e il suo CDF (posteriore) con . Quindi l'equazione B3 dell'appendice è equivalente a dove è il normale CDF standard. La densità corrispondente è quindi dove è il PDF normale standard e come in la formula CDF. Infine, se denotiamo con l'osservatopzF[u]Pr[puz^]

F[p]=1Φ[12(z[p]z^)],z[p]=Φ1[1p]
Φ[]
f[p]F[p]=ϕ[(zz^)/2]2ϕ[z]
ϕ[]z=z[p]p^valore p fronte-retro corrispondente a , quindi abbiamo z^
z^=Φ1[1p^2]

L'uso di queste equazioni fornisce la figura seguente, che dovrebbe essere comparabile alla figura 5 del documento citata nella domanda. "Riproduzione" di Cumming (2008) Fig. 5 tramite formule pubblicate.

(Questo è stato prodotto dal seguente codice Matlab; esegui qui .)

phat2=[1e-3,1e-2,5e-2,0.2]'; zhat=norminv(1-phat2/2);
np=1e3+1; p1=(1:np)/(np+1); z=norminv(1-p1);
p1pdf=normpdf((z-zhat)/sqrt(2))./(sqrt(2)*normpdf(z));
plot(p1,p1pdf,'LineWidth',1); axis([0,1,0,6]);
xlabel('p'); ylabel('PDF p|p_{obs}');
legend(arrayfun(@(p)sprintf('p_{obs} = %g',p),phat2,'uni',0));

1
La mia speranza è che esponendo il presupposto sottostante (es. Uniforme prima del parametro nascosto), la discussione possa ora concentrarsi sulla domanda scientifica / statistica che credo sia stata il tuo obiettivo! (Invece della domanda di matematica / probabilità a cui ho risposto sopra.)
GeoMatt22

Ho trovato alcune vecchie e non vecchie discussioni su questo argomento: Goodman 1992 , un commento su Goodman di Senn 2002 e un recente Lazzeroni et al 2014 . L'ultimo sembra piuttosto inutile (ma lo menziono per completezza) ma i primi due, in particolare il commento di Senn, sembrano molto pertinenti.
ameba dice di reintegrare Monica il

ameba grazie per aver scavato questi riferimenti, sembrano interessanti! Per completezza, ho aggiunto una sezione "discussione" cercando di collegare il risultato Cumming e il framework standard.
GeoMatt22,

Aggiornamento: ho letto gli articoli di Goodman e Senn collegati sopra e ora ho pubblicato la mia risposta per riassumere la mia intuizione attuale. (A proposito, sono stato felice di accettare la tua risposta e premiarla con la generosità. Grazie ancora.)
Ameba dice Reinstate Monica,

27

Grazie per tutte le discussioni interessanti! Quando ho scritto l'articolo del 2008, mi ci è voluto un po 'di tempo per convincermi che la distribuzione della replica p (il valore p dato da una replica esatta di uno studio, nel senso che uno studio è esattamente lo stesso, ma con un nuovo campione) dipende solo su p dato dallo studio originale. (Nel documento presumo una popolazione normalmente distribuita e un campionamento casuale, e che i nostri studi mirano a stimare la media della popolazione.) Pertanto l' intervallo p (l'intervallo di predizione dell'80% per la replica p ) è lo stesso, qualunque sia la N , potenza o dimensione dell'effetto reale dello studio originale.

Certo, all'inizio è incredibile. Ma nota attentamente che la mia affermazione originale si basa sulla conoscenza di p dallo studio originale. Pensare in questo modo. Supponiamo che tu mi dica che il tuo studio originale ha trovato p = .05. Non mi dici nient'altro sullo studio. So che l'IC 95% sulla media del campione si estende esattamente a zero (supponendo che p sia stata calcolata per un'ipotesi nulla di zero). Quindi la media del tuo campione è MoE (la lunghezza di un braccio di quel 95% CI), perché è quella distanza da zero. La distribuzione campionaria dei mezzi da studi come il tuo ha una deviazione standard MoE / 1,96. Questo è l'errore standard.

Considera la media data da una replica esatta. La distribuzione di tale media di replica ha un MoE medio, ovvero la distribuzione è centrata sulla media del campione originale. Considera la differenza tra la tua media campionaria e una media di replica. Ha una varianza pari alla somma delle varianze della media di studi come il tuo studio originale e repliche. Questo è il doppio della varianza di studi come il tuo studio originale, ovvero 2 x SE ^ 2. Che è 2 x (MoE / 1.96) ^ 2. Quindi la SD di quella differenza è SQRT (2) x MoE / 1.96.

Pertanto conosciamo la distribuzione della media della replica: la sua media è MoE e SD è SQRT (2) x MoE / 1.96. Certo, la scala orizzontale è arbitraria, ma dobbiamo solo conoscere questa distribuzione in relazione all'IC dal tuo studio originale. Man mano che vengono eseguite le repliche, la maggior parte dei mezzi (circa l'83%) cadrà in quel CI originale al 95% e circa l'8% scenderà al di sotto di esso (cioè sotto lo zero, se la media originale era> 0) e dell'8% superiore a quella CI. Se sappiamo dove cade una media di replica in relazione al tuo elemento della configurazione originale, possiamo calcolare il suo valore p . Conosciamo la distribuzione di tali mezzi di replica (in relazione al tuo elemento della configurazione) in modo da poter capire la distribuzione della replica pvalore. L'unico presupposto che stiamo facendo riguardo alla replica è che è esatto, cioè proviene dalla stessa popolazione, con le stesse dimensioni dell'effetto, del tuo studio originale, e che N (e il disegno sperimentale) era lo stesso del tuo studio .

Tutto quanto sopra è solo una riformulazione dell'argomento nell'articolo, senza immagini.

Ancora informalmente, può essere utile pensare cosa implica p = .05 nello studio originale. Potrebbe significare che hai uno studio enorme con una dimensione dell'effetto minuscola o uno studio minuscolo con una dimensione dell'effetto gigante. Ad ogni modo, se ripeti tale studio (stessa N , stessa popolazione), otterrai sicuramente una media del campione leggermente diversa. Si scopre che, in termini di valore p , "un po 'diverso" è lo stesso, indipendentemente dal fatto che tu abbia avuto l'enorme o il minuscolo studio. Quindi, dimmi solo il tuo valore p e ti dirò il tuo intervallo p .

Geoff


8
Grazie mille per esserti registrato su questo sito web per rispondere alla mia domanda! Lo apprezzo molto. Non sono ancora convinto, ma ci vorrà del tempo per riflettere sulla tua risposta. La mia attuale sensazione è che tu valuti un punto valido, ma non sono d'accordo su come lo formuli. Un'obiezione semplice: p = 0,05 è coerente con H0 vero. Se H0 è vero, p sarà compreso nell'intervallo 0,04-0,05 dell'1% delle volte. In tal caso, la distribuzione dei valori di replica p sarà uniforme da 0 a 1. Ma si prevede una distribuzione diversa per la p iniziale = 0,05 in tutte le circostanze . Come dovremmo pensarci?
ameba dice di reintegrare Monica il

7
Un presupposto implicito in questo argomento sembra insostenibile: è che una "replica esatta" ha una media uguale al MoE. Se per "replica esatta" intendiamo ripetere l'esperimento con lo stesso stato di natura, allora la distribuzione della statistica del test è sconosciuta: dipende dallo stato di natura. Oltre ad adottare un punto di vista bayesiano - il che significa che è necessario dichiarare esplicitamente il tuo precedente - l'unico modo per fare progressi è calcolare le probabilità prima che sia eseguito l'originale o la replica, non subordinato alla replica.
whuber

2
@ user43849 Sottolineerei, con tutto il rispetto, che una persona del genere non capisce cosa sia un valore p. Un valore p dice poco o nulla sugli esperimenti futuri . C'è un concetto frequentista di intervallo di predizione che si applica direttamente qui: la domanda di replica riguarda semplicemente un intervallo di predizione per il valore p di un singolo esperimento futuro. La risposta è ben radicata nella teoria statistica classica, non richiede concetti innovativi ed è (sicuramente) non bayesiana nello spirito.
whuber

2
@whuber scavando nel documento, credo che ci possa essere un presupposto bayesiano implicito alla base dell'esercizio (vedi la mia risposta).
GeoMatt22,

1
@GeoMatt Sì, sembra l'unico modo per giustificare i calcoli.
whuber

10

Il problema è stato chiarito da @ GeoMatt22 e sono stato felice di vedere @GeoffCumming venire qui per partecipare alla discussione. Sto postando questa risposta come ulteriore commento.


A quanto pare, questa discussione risale almeno a Goodman (1992) Un commento su replica, valori P e prove e una successiva risposta Senn (2002) Lettera all'editore . Consiglio vivamente di leggere questi due brevi articoli, in particolare quello di Stephen Senn; Mi trovo pienamente d'accordo con Senn.

Se avessi letto questi articoli prima di porre questa domanda, molto probabilmente non l'avrei mai pubblicato. Goodman (a differenza di Cumming) afferma molto chiaramente che considera un ambiente bayesiano con un precedente piatto. Non presenta distribuzioni del valore come Cumming e riporta invece le probabilità di osservare un risultato "significativo" in un esperimento di replica:p < 0,05pp<0.05

Goodman 1992

Il suo punto principale è che queste probabilità sono sorprendentemente basse (anche per è solo ). In particolare, per è solo . (Quest'ultima probabilità rimane la stessa per qualsiasi e .)0,78 p = 0.05 0.5 1 / 2 α p = αp=0.0010.78p=0.050.51/2αp=α

Il punto di risposta di Senn è che questa è un'osservazione utile che, tuttavia, non senza minare -Valori in qualsiasi modo e lo fa non è , contrariamente a Goodman, significa che -Valori "sovrastimare le prove contro il nulla". Lui scrive:ppp

Ritengo inoltre che la sua dimostrazione [di Goodman] sia utile per due motivi. In primo luogo, serve come avvertimento per chiunque stia pianificando un ulteriore studio simile a quello appena completato (e che ha un risultato marginalmente significativo) che questo potrebbe non corrispondere nel secondo studio. In secondo luogo, serve da avvertimento che ci si può aspettare che un'apparente incoerenza nei risultati dei singoli studi sia comune e che non si debba reagire in modo eccessivo a questo fenomeno.

Senn ci ricorda che i valori unilaterali possono essere compresi come probabilità posteriori bayesiane di sotto il piano precedente per (precedente improprio su tutta la linea reale) [vedi Marsman & Wagenmakers 2016 per una breve discussione di questo fatto e alcune citazioni] .H 0 : μ < 0 μpH0:μ<0μ

Se è così, avendo ottenuto alcun particolare -value in un esperimento, la probabilità che il prossimo esperimento produrrà un basso -value deve essere ; altrimenti future repliche potrebbero in qualche modo fornire ulteriori prove prima di essere condotte. Quindi ha perfettamente senso che per Goodman abbia ottenuto la probabilità . E infatti, tutte le distribuzioni di replica calcolate da Cumming e @ GeoMatt22 hanno mediane al rispettivo .p 1 / 2 p = 0,05 0,5 p o b sp p1/2p=0.050.5pobs

Tuttavia, non è necessario che questa probabilità di replicazione sia superiore a per ritenere probabile l'efficacia del trattamento. Una lunga serie di studi, il % dei quali erano significativi a livello del %, sarebbero prove convincenti dell'efficacia del trattamento.50 50.5505

Per inciso, chiunque abbia esaminato le distribuzioni predittive di valori per, diciamo, un test t di una data dimensione e potenza ( vedi ad esempio qui ) non sarà sorpreso dal fatto che richiedere una mediana a renderà necessariamente questa distribuzione piuttosto ampia , con una coda grassa che va verso . Alla luce di ciò, gli ampi intervalli segnalati da Cumming cessano di essere sorprendenti.p = 0,05 1pp=0.051

Quello che invece non suggeriscono, è che si dovrebbe usare campioni di dimensioni più grandi quando si cerca di replicare un esperimento; e in effetti, questa è una raccomandazione standard per gli studi di replicazione (ad esempio Uri Simonsohn suggerisce , come regola generale, di aumentare la dimensione del campione di volte).2.5


5
(+1) Fortunatamente , non ti sei mai imbattuto in Goodman o Senn fino a quando non lo hai fatto. :-)
cardinale il

6

Grazie a tutti per ulteriori interessanti discussioni. Piuttosto che fare i miei commenti, punto per punto, offrirò alcune riflessioni generali.

Bayes. Non ho nulla contro gli approcci bayesiani. Fin dall'inizio mi aspettavo che un'analisi bayesiana, presupponendo un precedente piatto o diffuso, avrebbe dato gli stessi o molto simili intervalli di predizione. C'è un paragrafo a pag. 291 nell'articolo del 2008 su questo, in parte richiesto da uno dei revisori. Quindi sono lieto di vedere, sopra, un'elaborazione di questo approccio. È fantastico, ma è un approccio molto diverso da quello che ho adottato.

A parte questo, ho scelto di lavorare sulla difesa degli intervalli di confidenza (le nuove statistiche: dimensioni dell'effetto, EC, meta-analisi) piuttosto che sugli approcci bayesiani alla stima (basati su intervalli credibili) perché non so come spiegare il Gli bayesiani si avvicinano sufficientemente bene ai principianti. Non ho visto alcun libro di testo bayesiano veramente introduttivo che sento di poter usare con i principianti, o che probabilmente sarà trovato accessibile e convincente da un gran numero di ricercatori. Pertanto, dobbiamo cercare altrove se vogliamo avere buone possibilità di migliorare il modo in cui i ricercatori fanno la loro inferenza statistica. Sì, dobbiamo andare oltre pvalori e passaggio dal processo decisionale dicotomico alla stima, e i bayesiani possono farlo. Ma molto più probabilità di ottenere un cambiamento pratico, imho, è un approccio CI convenzionale. Ecco perché il nostro manuale introduttivo sulle statistiche, recentemente pubblicato, adotta il nuovo approccio statistico. Vedi www.thenewstatistics.com

Torna alle riflessioni. Fondamentale per la mia analisi è ciò che intendo conoscendo solo il valore p del primo studio. Vengono assunti i presupposti che faccio (popolazione normale, campionamento casuale, popolazione nota SD in modo da poter usare i calcoli z anziché t mentre conduciamo deduzioni sulla media della popolazione, replica esatta). Ma è tutto ciò che presumo. La mia domanda è "dato solo p dall'esperimento iniziale, fino a che punto possiamo andare?" La mia conclusione è che possiamo trovare la distribuzione di p prevista da un esperimento di replica. Da quella distribuzione possiamo derivare intervalli p , o qualsiasi probabilità di interesse, come la probabilità che la replica darà p<.05 o qualsiasi altro valore di interesse.

Il nocciolo dell'argomento, e forse il passo degno di maggiore riflessione, è illustrato nella Figura A2 dell'articolo. La metà inferiore è probabilmente senza problemi. Se conosciamo mu (solitamente ottenuto assumendo che sia uguale alla media dello studio iniziale), gli errori di stima, rappresentati dai segmenti di linea spessa, hanno una distribuzione nota (mu normale, media, SD come spiegato nella didascalia).

Quindi il grande passo: considera la metà superiore della Figura 2A. Non abbiamo informazioni su mu. Nessuna informazione, nessuna assunzione nascosta su un precedente. Tuttavia possiamo affermare la distribuzione di quei segmenti di linea spessa: normale, zero medio, SD = SQRT (2) volte la SD nella metà inferiore. Questo ci dà ciò di cui abbiamo bisogno per trovare la distribuzione della replica p .

Gli intervalli di p risultanti sono sorprendentemente lunghi — almeno provo stupore quando mi confronto con il modo in cui i valori di p sono praticamente universalmente usati dai ricercatori. I ricercatori in genere sono ossessionati dal secondo o terzo decimale di un valore p , senza apprezzare che il valore che stanno vedendo avrebbe potuto facilmente essere molto diverso. Da qui i miei commenti a pagg. 293-4 sulla segnalazione di intervalli p per riconoscere la vaghezza di p .

Lungo, sì, ma ciò non significa che p dall'esperimento iniziale non significhi nulla. Dopo una p iniziale molto bassa , le repliche tenderanno, in media, ad avere valori di p piccoli . P e repliche iniziali più alte tenderanno ad avere valori di p un po 'più grandi . Vedi tabella 1 a pag. 292 e confrontare, ad esempio, gli intervalli p nella colonna di destra per p iniziale = .001 e .1: due risultati convenzionalmente considerati a miglia di distanza. I due intervalli p sono decisamente diversi, ma c'è un'enorme sovrapposizione dei due. La replica dell'esperimento .001 potrebbe facilmente dare ppiù grande di una replica dell'esperimento .1. Anche se, molto probabilmente, non lo farebbe.

Come parte della sua ricerca di dottorato, Jerry Lai, ha riportato ( Lai, et al., 2011 ) diversi bei studi che hanno scoperto che i ricercatori pubblicati da un certo numero di discipline hanno intervalli p soggettivi che sono troppo brevi. In altre parole, i ricercatori tendono a sottostimare drasticamente quanto sia diverso il valore p di una replica.

La mia conclusione è che non dovremmo semplicemente usare i valori p . Riferisci e discuti dell'IC al 95%, che trasmette tutte le informazioni nei dati che ci dicono sulla media della popolazione che stiamo studiando. Dato l'IC, il valore p non aggiunge nulla ed è probabile che suggerisca, a torto, un certo grado di certezza (Significativo! Non significativo! L'effetto esiste! Non esiste!). Certo, i valori CI e p sono basati sulla stessa teoria e possiamo convertirci dall'uno all'altro (ce ne sono molti nel Capitolo 6 del nostro manuale di introduzione). Ma l'IC fornisce molte più informazioni di p . Ancora più importante, rende saliente l'entità dell'incertezza. Data la nostra tendenza umana a cogliere la certezza, l'estensione dell'IC è fondamentale da considerare.

Ho anche cercato di mettere in evidenza la variabilità dei p valori nella 'danza delle p valori' video. Google "danza dei valori p ". Esistono almeno un paio di versioni.

Possano tutti i tuoi intervalli di confidenza essere brevi!

Geoff


3
Grazie per questi commenti aggiuntivi, Geoff. Sono d'accordo con alcuni punti qui (ad esempio sul "grado di certezza") e non sono d'accordo con alcuni altri (ad esempio "Dato l'IC, il valore p non aggiunge nulla") ma una cosa in particolare sento che deve essere ripetuta: non pensa che ci sia un modo per fare la tua analisi senza un Bayes prima. L'argomento che viene presentato nella Figura A2 richiede un precedente piatto come presupposto nascosto. Si possono assumere altri priori e arrivare a risultati molto diversi; Non credo che ci siano argomenti puramente frequenti che possano supportare le tue conclusioni. Vedi i commenti di @ whuber sopra.
ameba dice Ripristina Monica il

@Geoff Cumming - I tuoi commenti sull'educazione statistica e l'interpretazione dei risultati sono molto apprezzati.
rolando2
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.