Cosa fare quando i mezzi di due campioni sono significativamente diversi ma la differenza sembra troppo piccola per essere importante

13

Ho due campioni ( in entrambi i casi). I mezzi differiscono di circa il doppio dello standard in pool. dev. Il valore risultante è di circa 10. Mentre è bello sapere che ho dimostrato in modo conclusivo che i mezzi non sono gli stessi, questo mi sembra guidato dal grande n. Guardando gli istogrammi dei dati non credo di certo che un piccolo valore p sia davvero rappresentativo dei dati e, a dire il vero, non mi sento a mio agio nel citarlo. Probabilmente sto facendo la domanda sbagliata. Quello che sto pensando è: ok, i mezzi sono diversi, ma importa davvero perché le distribuzioni condividono una sovrapposizione significativa? $n \approx 70$ $T$

È qui che sono utili i test bayesiani? Se è così, dove è un buon punto di partenza, un po 'di googling non ha prodotto nulla di utile, ma potrei non fare la domanda giusta. Se questa è la cosa sbagliata qualcuno ha qualche suggerimento? O questo è semplicemente un punto di discussione rispetto all'analisi quantitativa?

hypothesis-testing t-test

— Giocatore di bowling
fonte

Voglio solo aggiungere a tutte le altre risposte che la tua prima affermazione è sbagliata: NON hai dimostrato in modo conclusivo che i mezzi sono diversi . Il valore p di un t-test ti sta dicendo se la probabilità di osservare i tuoi dati o valori più estremi di essi è probabile / improbabile data l'ipotesi nulla (che per il t-test è

, cioè

: {"I mezzi sono uguali"}), il che non significa che i mezzi siano, in effetti, diversi . Inoltre, suppongo che tu abbia anche eseguito un test F per testare l'uguaglianza delle varianze prima di eseguire il test t varianza in pool, giusto?

μ_{A} = μ_{B}

$\mu_A=\mu_B$

H_{0}

$H_0$

— Néstor

La tua domanda è molto buona poiché evidenzia un'importante distinzione e mostra che stai effettivamente pensando ai tuoi dati piuttosto che cercare alcune stelle su un risultato statistico e dichiararti fatto. Come indicano diverse risposte, il significato statistico non è lo stesso che significativo . E se ci pensate, non possono essere: come può una procedura statistica sapere che una differenza media statisticamente significativa di 0,01 significa qualcosa nel campo A, ma è insignificatamente piccola nel campo B?

— Wayne,

Abbastanza giusto, il linguaggio non era perfetto, ma quando il valore p è come quelli che sto ottenendo, tendo a non essere troppo esigente con le parole. Ho fatto un test F (e un diagramma QQ). È abbastanza vicino per il jazz, come si suol dire.

— Bowler

1

FWIW, se i tuoi mezzi sono a parte 2 SD, mi sembra una differenza abbastanza grande. Dipende dal tuo campo, ovviamente, ma questa è una differenza che le persone noterebbero facilmente a occhio nudo (ad esempio, le altezze medie di uomini e donne statunitensi di età compresa tra 20 e 29 anni differiscono di circa 1,5 DS). IMO, se le distribuzioni non non si sovrappongono affatto, non è necessario eseguire alcuna analisi dei dati; come minimo, w /

piccolo quanto 6,

sarà <.05 se le distribuzioni non si sovrappongono.

N

$N$

p

$p$

— gung - Ripristina Monica

Sono d'accordo sul fatto che la differenza sia grande, anche se assolutamente irriverente.

— Bowler

12

Lascia che denoti la media della prima popolazione e denoti la media della seconda popolazione. Sembra che tu abbia usato un test due campioni per verificare se . Il risultato significativo implica che , ma la differenza sembra essere troppo piccola per la tua applicazione. $\mu_1$ $\mu_2$ $t$ $\mu_1=\mu_2$ $\mu_1\neq\mu_2$

Quello che hai riscontrato è il fatto che statisticamente significativo spesso può essere qualcosa di diverso dal significativo per l'applicazione . Sebbene la differenza possa essere statisticamente significativa, potrebbe non essere significativa .

I test bayesiani non risolveranno quel problema: concluderai comunque che esiste una differenza.

Potrebbe tuttavia esserci una via d'uscita. Ad esempio, per un'ipotesi unilaterale potresti decidere che se è unità maggiore di ciò costituirebbe una differenza significativa che è abbastanza grande da essere rilevante per la tua applicazione. $\mu_1$ $\Delta$ $\mu_2$

In tal caso, verifichi se invece che . La statistica (assumendo varianze uguali) sarebbe in tal caso $\mu_1-\mu_2\leq \Delta$ $\mu_1-\mu_2=0$ $t$ doveè la stima della deviazione standard aggregata. Sotto l'ipotesi nulla, questa statistica è-distributed congradi di libertà.

T = \frac{{\bar{x}}_{1} - {\bar{x}}_{2} - Δ}{s_{p} \sqrt{1 / n_{1} + 1 / n_{2}}}

$T=\frac{\bar{x}_1-\bar{x}_2-\Delta}{s_p\sqrt{1/n_1+1/n_2}}$

s_{p}

$s_p$

t

$t$

n_{1} + n_{2} - 2

$n_1+n_2-2$

Un modo semplice di eseguire questo test è quello di sottrarre dalle tue osservazioni dalla prima popolazione e quindi eseguire un test a due campioni unilaterale regolare . $\Delta$ $t$

— MånsT
fonte

8

È valido per confrontare diversi approcci, ma non con l'obiettivo di scegliere quello che favorisce i nostri desideri / credenze.

La mia risposta alla tua domanda è: è possibile che due distribuzioni si sovrappongano mentre hanno mezzi diversi, il che sembra essere il tuo caso (ma avremmo bisogno di vedere i tuoi dati e il contesto per fornire una risposta più precisa).

Lo illustrerò usando un paio di approcci per confrontare i mezzi normali .

$t$

$70$ $N(10,1)$ $N(12,1)$ $t$ $10$

rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)

set.seed(77)

# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")

# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)

# t test
t.test(dat1,dat2)

$\sigma$

inserisci qui la descrizione dell'immagine

$\mu$

Per una definizione della probabilità e della probabilità del profilo, vedere 1 e 2 .

$\mu$ $n$ $\bar{x}$ $R_p(\mu)=\exp\left[-n(\bar{x}-\mu)^2\right]$

Per i dati simulati, questi possono essere calcolati in R come segue

# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}

Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}

vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)

# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")

$\mu_1$ $\mu_2$

$\mu$

$(\mu,\sigma)$

π (μ, σ) \propto \frac{1}{σ^{2}}

$\pi(\mu,\sigma)\propto \dfrac{1}{\sigma^2}$

$\mu$

# Posterior of mu
library(mcmc)

lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]

# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")

Ancora una volta, gli intervalli di credibilità per i mezzi non si sovrappongono a nessun livello ragionevole.

In conclusione, puoi vedere come tutti questi approcci indicano una differenza significativa di mezzi (che è l'interesse principale), nonostante la sovrapposizione delle distribuzioni.

$\star$

${\mathbb P}(X<Y)$ $0.8823825$

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r ) 
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

nonpest(dat1,dat2)

Spero che questo possa essere d'aiuto.

— Comunità
fonte

2

(+1) Grazie per una risposta davvero utile sui metodi baysian. Anche il collegamento P (X <Y) risponde a un altro problema di cui mi sono chiesto nella stessa analisi.

— Bowler,

7

Rispondere alla domanda giusta

ok, i mezzi sono diversi ma importa davvero perché le distribuzioni condividono una sovrapposizione significativa?

Qualsiasi test che chieda se i mezzi di gruppo sono diversi, quando funziona correttamente, ti dirà se i mezzi sono diversi. Non ti dirà che le distribuzioni dei dati stessi sono diverse, poiché questa è una domanda diversa. Questa domanda dipende certamente dal fatto che i mezzi siano diversi, ma anche da molte altre cose che potrebbero essere (in modo incompleto) riassunte come varianza, inclinazione e curtosi.

Si nota correttamente che la certezza della posizione dei mezzi dipende dalla quantità di dati che è necessario stimarli, quindi avere più dati consentirà di individuare differenze medie in distribuzioni quasi sovrapposte. Ma ti chiedi se

come il piccolo valore p è davvero rappresentativo dei dati

In effetti non lo è, almeno non direttamente. E questo è di progettazione. È rappresentativo (approssimativamente parlando) della certezza che si può avere che una particolare coppia di statistiche campione dei dati (non i dati stessi) siano diverse.

Se si desidera rappresentare i dati stessi in un modo più formale che mostrare semplicemente gli istogrammi e testarne i momenti, allora forse un paio di grafici di densità potrebbero essere utili. Dipende piuttosto dall'argomento che stai usando per fare il test.

Una versione bayesiana

Sotto tutti questi aspetti, i "test" delle differenze bayesiane e i test T si comporteranno allo stesso modo perché stanno cercando di fare la stessa cosa. Gli unici vantaggi che mi vengono in mente per l'utilizzo di un approccio bayesiano sono: a) che sarà facile fare il test consentendo possibili varianze diverse per ciascun gruppo eb) che si concentrerà sulla stima della probabile dimensione della differenza nelle medie piuttosto che trovare un valore p per qualche test di differenza. Detto questo, questi vantaggi sono piuttosto minori: ad es. In b) potresti sempre segnalare un intervallo di confidenza per la differenza.

Le virgolette sopra sopra 'test' sono intenzionali. È certamente possibile fare test di ipotesi bayesiana, e la gente lo fa. Tuttavia, suggerirei che il vantaggio comparativo dell'approccio è focalizzato sulla costruzione di un modello plausibile dei dati e sulla comunicazione dei suoi aspetti importanti con adeguati livelli di incertezza.

— conjugateprior
fonte

3

Prima di tutto questo non è un problema da mettere alla prova con i frequentist. Il problema sta nell'ipotesi nulla che i mezzi siano esattamente uguali. Pertanto, se le popolazioni differiscono in modo significativo da una piccola quantità e la dimensione del campione è abbastanza grande, la possibilità di respingere questa ipotesi nulla è molto alta. Pertanto, il valore p del test si è rivelato molto piccolo. Il colpevole è la scelta dell'ipotesi nulla. Scegli d> 0 e considera l'ipotesi nulla che le medie differiscano di meno di d in valore assoluto di meno di d. Scegli d in modo che la vera differenza debba essere soddisfacente in modo soddisfacente da respingere. Il tuo problema scompare. I test bayesiani non risolvono il problema se si insiste su un'ipotesi nulla sull'esatta uguaglianza dei mezzi.

— Michael R. Chernick
fonte

Stavo scrivendo la mia risposta contemporaneamente alle altre due.

— Michael R. Chernick,