Quale frazione di esperimenti ripetuti avrà una dimensione dell'effetto entro l'intervallo di confidenza del 95% del primo esperimento?


12

Atteniamoci a una situazione ideale con campionamento casuale, popolazioni gaussiane, varianze uguali, nessun P-hacking, ecc.

Passaggio 1. Si esegue un esperimento dicendo che si confrontano due medie campione e si calcola un intervallo di confidenza del 95% per la differenza tra le due medie di popolazione.

Passaggio 2. Esegui molti altri esperimenti (migliaia). La differenza tra le medie varierà da esperimento a esperimento a causa del campionamento casuale.

Domanda: Quale frazione della differenza tra i mezzi dalla raccolta di esperimenti nel passaggio 2 risiederà nell'intervallo di confidenza del passaggio 1?

Non si può rispondere. Tutto dipende da ciò che è accaduto nel passaggio 1. Se l'esperimento del passaggio 1 era molto atipico, la risposta alla domanda potrebbe essere molto bassa.

Quindi immagina che entrambi i passaggi vengano ripetuti più volte (con il passaggio 2 ripetuto molte altre volte). Ora dovrebbe essere possibile, penso, pensare a quale frazione di esperimenti ripetuti, in media, abbia una dimensione dell'effetto entro l'intervallo di confidenza del 95% del primo esperimento.

Sembra che la risposta a queste domande debba essere compresa per valutare la riproducibilità degli studi, un'area molto calda ora.


Per ogni esperimento originale (passaggio 1) , definire x i come la frazione dei risultati successivi (passaggio 2) che producono risultati nell'intervallo di confidenza del risultato originale. Vuoi calcolare la distribuzione empirica di x ? ixix
Matthew Gunn,

Sì, capisci cosa ti sto chiedendo
Harvey Motulsky,

@MatthewGunn ti ha chiesto se desideri la distribuzione empirica della "frazione di cattura" per future osservazioni. Il tuo post ha chiesto "... dovrebbe essere possibile, penso, pensare a quale frazione di esperimenti ripetuti, in media, abbia una dimensione dell'effetto entro l'intervallo di confidenza del 95% del primo esperimento" . Questa non è una distribuzione ma un valore atteso (media).

L'analisi di Whuber è fantastica, ma se hai bisogno di una citazione, ecco un articolo che discute esattamente questa domanda in dettaglio: Cumming & Maillardet, 2006, Intervalli di confidenza e replica: Where Will the Next Mean Fall? . Lo chiamano percentuale di acquisizione di un intervallo di confidenza.
ameba dice Ripristina Monica il

Risposte:


12

Analisi

Poiché questa è una domanda concettuale, per semplicità consideriamo la situazione in cui un intervallo di confidenza [ ˉ x ( 1 ) + Z α / 2 s ( 1 ) / 1αè costruito per una mediaμusando un campione casualex(1)di dimensionene un secondo campione casualex(2)viene prelevato di dimensionem, tutti dalla stessa distribuzione normale(μ,σ2). (Se lo desideri, puoi sostituire leZs con i valori delladistribuzionetStudentdin-1gradi di libertà; la seguente analisi non cambierà.)

[x¯(1)+Zα/2s(1)/n,x¯(1)+Z1α/2s(1)/n]
μx(1)nx(2)m(μ,σ2)Ztn1

La possibilità che la media del secondo campione si trovi all'interno dell'IC determinato dal primo è

Pr(x¯(1)+Zα/2ns(1)x¯(2)x¯(1)+Z1α/2ns(1))=Pr(Zα/2ns(1)x¯(2)x¯(1)Z1α/2ns(1)).

Poiché la prima media del campione è indipendente dalla prima deviazione standard del campione (ciò richiede normalità) e il secondo campione è indipendente dal primo, la differenza nel campione significa è indipendente da . Inoltre, per questo intervallo simmetrico . Pertanto, scrivendo per la variabile casuale e quadrando entrambe le disuguaglianze, la probabilità in questione è la stessa dis(1)U= ˉ x (2)- ˉ x (1)s(1)Zα/2=-Z1-α/2Ss(1)x¯(1)s(1)U=x¯(2)x¯(1)s(1)Zα/2=Z1α/2Ss(1)

Pr(U2(Z1α/2n)2S2)=Pr(U2S2(Z1α/2n)2).

Le leggi di aspettativa implicano che ha una media di e una varianza diU0

Var(U)=Var(x¯(2)x¯(1))=σ2(1m+1n).

Poiché è una combinazione lineare di variabili normali, ha anche una distribuzione normale. Pertanto è volte una variabile . Sapevamo già che è volte una variabile . Di conseguenza, è volte una variabile con una distribuzione . La probabilità richiesta è data dalla distribuzione F comeUU2σ2(1n+1m)χ2(1)S2σ2/nχ2(n1)U2/S21/n+1/mF(1,n1)

(1)F1,n1(Z1α/221+n/m).

Discussione

Un caso interessante è quando il secondo campione ha le stesse dimensioni del primo, in modo che e solo e determinino la probabilità. Ecco i valori di tracciati contro per .n/m=1nα(1)αn=2,5,20,50

figura

I grafici salgono a un valore limite ad ogni man mano che aumenta. La dimensione del test tradizionale è contrassegnata da una linea grigia verticale. Per valori elevati di , la possibilità di limitazione per è di circa l' .αnα=0.05n=mα=0.0585%

Comprendendo questo limite, passeremo in rassegna i dettagli delle piccole dimensioni del campione e comprenderemo meglio il nocciolo della questione. Man mano che cresce, la distribuzione avvicina a una distribuzione . In termini di distribuzione normale standard , la probabilità si approssiman=mFχ2(1)Φ(1)

Φ(Z1α/22)Φ(Zα/22)=12Φ(Zα/22).

Ad esempio, con , e . Conseguentemente il valore limite raggiunto dalle curve a come aumenti saranno . Puoi vedere che è stato quasi raggiunto per (dove la probabilità è .)Z α / 2 / α=0.05Zα/2/21.96/1.411.386Φ(1.386)0.083α=0.05n12(0.083)=10.166=0.834n=500.8383

Per il piccolo , la relazione tra e la probabilità complementare - il rischio che l'IC non copra la seconda media - è quasi perfettamente una legge di potere. αα Un altro modo per esprimere ciò è che la probabilità complementare del registro è quasi una funzione lineare di . La relazione limitante è approssimativamentelogα

log(2Φ(Zα/22))1.79712+0.557203log(20α)+0.00657704(log(20α))2+

In altre parole, per e grandi vicino al valore tradizionale di , sarà vicinon=mα0.05(1)

10.166(20α)0.557.

(Questo mi ricorda molto l'analisi degli intervalli di confidenza sovrapposti che ho pubblicato su /stats//a/18259/919 . In effetti, il potere magico lì, , è quasi il reciproco del potere magico qui, . A questo punto dovresti essere in grado di reinterpretare quell'analisi in termini di riproducibilità degli esperimenti.)1.910.557


Risultati sperimentali

Questi risultati sono confermati con una simulazione semplice. Il Rcodice seguente restituisce la frequenza di copertura, la probabilità calcolata con e un punteggio Z per valutare quanto differiscono. I punteggi Z hanno in genere dimensioni inferiori a , indipendentemente da (o anche se viene calcolata una o CI), indicando la correttezza della formula .(1)2n,m,μ,σ,αZt(1)

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))

Dici che usare t invece di z non farà molta differenza. Ti credo ma non ho ancora verificato. Con dimensioni del campione ridotte, i due valori critici possono differire molto e la distribuzione t è il modo corretto di calcolare l'IC. Perché preferisci usare z ??
Harvey Motulsky,

È puramente illustrativo e è più semplice. Quando usi è interessante che le curve nella figura inizino in alto e scendano al loro limite. In particolare, la possibilità di riprodurre un risultato significativo è quindi molto più elevata per campioni piccoli che per campioni grandi! Nota che non c'è nulla da controllare, perché sei libero di interpretare come un punto percentuale della distribuzione t Student appropriata (o di qualsiasi altra distribuzione di cui potresti avere bisogno di nominare). Nulla cambia nell'analisi. Se vuoi vedere gli effetti particolari, decommenta la riga nel codice. t Z αZtZαqt
whuber

1
+1. Questa è un'ottima analisi (e la tua risposta ha troppi voti troppo bassi per quello che è). Mi sono appena imbattuto in un documento che discute questa domanda in modo molto dettagliato e ho pensato che potresti essere interessato: Cumming & Maillardet, 2006, Intervalli di confidenza e replica: Where Will the Next Mean Fall? . Lo chiamano percentuale di acquisizione di un intervallo di confidenza.
ameba dice Ripristina Monica il

@Amoeba Grazie per il riferimento. Apprezzo in particolare una conclusione generale al riguardo: "La replica è fondamentale per il metodo scientifico e i ricercatori non dovrebbero chiudere un occhio solo perché rende saliente l'incertezza intrinseca di un singolo studio".
whuber

1
Aggiornamento: grazie alla discussione in corso nel thread gemello, ora credo che il mio ragionamento nel commento sopra non fosse corretto. Gli IC del 95% hanno "replicazione-capture" dell'83%, ma questa è un'affermazione sul campionamento ripetuto e non può essere interpretata come una probabilità condizionata su un particolare intervallo di confidenza, almeno non senza ulteriori ipotesi. (Forse sia questo che i commenti precedenti dovrebbero essere eliminati per non confondere altri lettori.)
ameba dice Reinstate Monica il

4

[Modificato per correggere il bug segnalato da WHuber.]

Ho modificato il codice R di @ Whuber per utilizzare la distribuzione t e la copertura del diagramma in funzione della dimensione del campione. I risultati sono sotto. Ad alte dimensioni del campione, i risultati corrispondono ovviamente a quelli di WHuber.

inserisci qui la descrizione dell'immagine

Ed ecco il codice R adattato, eseguito due volte con alpha impostato su 0,01 o 0,05.

sigma <- 2 
mu <- -4
alpha <- 0.01
n.sim <- 1e5
#
# Compute the multiplier.

for (n in c(3,5,7,10,15,20,30,50,100,250,500,1000))
{
   T <- qt(alpha/2, df=n-1)     
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + T * s.1 / sqrt(n)
u.1 <- x.1.bar - T * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(n*n.sim, mu, sigma), nrow=n))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
Coverage=mean(covers)

print (Coverage)

}

Ed ecco il file Prisma di GraphPad che ha creato il grafico.


Credo che i tuoi grafici non utilizzino la distribuzione t , a causa di un bug: hai impostato il valore di Tfuori dal ciclo! Se desideri vedere le curve corrette, tracciale direttamente usando il risultato teorico nella mia risposta, come indicato alla fine del mio Rcodice (piuttosto che fare affidamento sui risultati simulati):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")
whuber

1
@whuber. Yikes! Certo che hai ragione. Imbarazzante. L'ho risolto. Come hai sottolineato, la copertura è maggiore con campioni di piccole dimensioni. (Ho corretto le simulazioni e non ho provato la tua funzione teorica.)
Harvey Motulsky

Sono contento che tu l'abbia risolto, perché è molto interessante quanto sia alta la copertura per campioni di piccole dimensioni. Potremmo anche invertire la tua domanda e usare la formula per determinare quale valore di usare se volessimo assicurare (prima di fare qualsiasi esperimento), con probabilità (diciamo), che la media del il secondo esperimento risiederebbe nell'intervallo di confidenza bilaterale determinato dal secondo. Farlo, come pratica di routine, potrebbe essere un modo intrigante per affrontare alcune critiche al NHST. p = 0,95 1 - αZα/2p=0.951α
whuber

@whuber Penso che il prossimo passo sia guardare alla distribuzione della copertura. Finora abbiamo una copertura media (media di molti primi esperimenti, con una media di molti secondi esperimenti ciascuno). Ma a seconda di quale sia il primo esperimento, in alcuni casi la copertura media sarà scarsa. Sarebbe interessante vedere la distribuzione. Sto cercando di imparare R abbastanza bene da scoprirlo.
Harvey Motulsky,

Per quanto riguarda le distribuzioni, vedere l'articolo che ho collegato nei commenti sopra.
ameba dice di reintegrare Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.