Metodo Z-score di Stouffer: e se sommiamo


22

Sto eseguendo N test statistici indipendenti con la stessa ipotesi nulla e vorrei combinare i risultati in un valore . Sembra che ci siano due metodi "accettati": il metodo di Fisher e il metodo di Stouffer .p

La mia domanda riguarda il metodo di Stouffer. Per ogni test separato ottengo un punteggio z . Sotto un'ipotesi nulla, ognuno dei quali viene distribuito con una distribuzione normale standard, quindi la somma segue una distribuzione normale con varianza . Pertanto il metodo di Stouffer suggerisce di calcolare , che dovrebbe essere normalmente distribuito con varianza unitaria, e quindi usarlo come punteggio z comune.ziΣziNΣzi/N

Questo è ragionevole, ma qui è un altro approccio che ho escogitato e che suona anche ragionevole per me. Poiché ciascuno di deriva da una distribuzione normale standard, la somma dei quadrati dovrebbe provenire da una distribuzione chi-quadrato con gradi di libertà. Quindi si può calcolare e convertirlo in un valore usando la funzione di distribuzione cumulativa chi-quadrato con gradi di libertà ( , dove è il CDF).ziS=Σzi2NSpNp=1XN(S)XN

Tuttavia, da nessuna parte posso trovare questo approccio menzionato. È mai stato usato? ha un nome? Quali sarebbero i vantaggi / gli svantaggi rispetto al metodo di Stouffer? O c'è un difetto nel mio ragionamento?


Un difetto saliente che salta fuori è il metodo di Stouffer in grado di rilevare cambiamenti sistematici nella , che è quello che ci si aspetterebbe di solito quando un'alternativa è costantemente vera, mentre il metodo chi-quadrato sembrerebbe avere meno potere per farlo. Una simulazione rapida ( N = 100 , 10 4 iterazioni) mostra che questo è il caso; il metodo di chi-quadrato è seriamente meno potente per rilevare un'unilaterale alternativa. ziN=100104
whuber

2
Grazie whuber! Potresti descrivere la tua simulazione in modo più dettagliato, sono curioso. D'altra parte, se segni diversi ma grandi valori assoluti, il metodo di Stouffer può finire con z 0 complessivo , mentre il mio metodo segnalerebbe un p MOLTO significativo . Immagino che in alcuni casi possa avere molto più senso (e sospetto che nel mio caso lo sia, ma non ne sono sicuro). ziz0p
ameba dice Reinstate Monica il

1
Hai ragione, motivo per cui non ho pubblicato il mio commento come risposta. Ma che tipo di situazioni ci sono in cui le alternative variano così radicalmente dal nulla in entrambe le direzioni, se non per il solo caso?
whuber

La situazione che avevo in mente è simile a quella del test chi-quadrato di Pearson, in cui ci si interessa se una distribuzione empirica differisce dal nulla; quindi le deviazioni in entrambe le direzioni contano. Ma dopo averci ripensato, suppongo che la tua intuizione sia corretta e nel mio caso deviazioni sospette sono tutte in una direzione. Se pubblichi il tuo commento come risposta e fornisci alcuni dettagli sulla tua simulazione veloce (sono molto curioso di sapere perché il metodo chi-quadrato risulta essere meno potente!), Sarò felice di accettarlo.
ameba dice Reinstate Monica il

La somma di n punteggi Z ha una distribuzione con una varianza di n? Perché la varianza non è il quadrato dell'errore standard della media? La somma di come implicita nel titolo ha una varianza di N. Forse mi manca qualcosa di ovvio? Z2
Russellpierce,

Risposte:


17

Un difetto che salta fuori è il metodo di Stouffer in grado di rilevare cambiamenti sistematici nella , che è quello che ci si aspetterebbe di solito quando un'alternativa è costantemente vera, mentre il metodo chi-quadrato sembrerebbe avere meno potere per farlo. Una rapida simulazione mostra che questo è il caso; il metodo chi-quadrato è meno potente per rilevare un'alternativa unilaterale. Ecco gli istogrammi dei valori di p con entrambi i metodi (rosso = Stouffer, blu = chi-quadrato) per 10 5 iterazioni indipendenti con N = 10 e vari effetti standardizzati unilaterali μ che vanno da nessuno ( μ = 0 ) a 0,6 SD ( μ =zi105N=10μμ=00.6 ).μ=0.6

Figure

La procedura migliore avrà un'area più vicina allo zero. Per tutti i valori positivi di mostrati, quella procedura è la procedura Stouffer.μ


Codice R.

Ciò include il metodo di Fisher (commentato) per il confronto.

n <- 10
n.iter <- 10^5
z <- matrix(rnorm(n*n.iter), ncol=n)

sim <- function(mu) {
  stouffer.sim <- apply(z + mu, 1, 
                    function(y) {q <- pnorm(sum(y)/sqrt(length(y))); 2*min(q, 1-q)})
  chisq.sim <- apply(z + mu, 1, 
                    function(y) 1 - pchisq(sum(y^2), length(y)))
  #fisher.sim <- apply(z + mu, 1,
  #                  function(y) {q <- pnorm(y); 
  #                     1 - pchisq(-2 * sum(log(2*pmin(q, 1-q))), 2*length(y))})
  return(list(stouffer=stouffer.sim, chisq=chisq.sim, fisher=fisher.sim))
}

par(mfrow=c(2, 3))
breaks=seq(0, 1, .05)
tmp <- sapply(c(0, .1, .2, .3, .4, .6), 
              function(mu) {
                x <- sim(mu); 
                hist(x[[1]], breaks=breaks, xlab="p", col="#ff606060",
                     main=paste("Mu =", mu)); 
                hist(x[[2]], breaks=breaks, xlab="p", col="#6060ff60", add=TRUE)
                #hist(x[[3]], breaks=breaks, xlab="p", col="#60ff6060", add=TRUE)
                })

Grazie ancora, è molto carino. E cosa succede se togli il commento al metodo di Fisher? Sospetto che tu l'abbia già provato. Stouffer vince costantemente? (Mi dispiace di non averlo provato da solo, ma non ho esperienza con R e non ce l'ho a portata di mano.)
Ameba dice Reinstate Monica,

μNN

1
È possibile modificare facilmente la Rsimulazione per testarlo. Sarebbe un buon modo per presentarti a questa piattaforma di calcolo statistico. :-)
whuber

2
zizio

Grande discussione e QA! Una domanda veloce: e se uno forme questo problema, come un valore erratico / rivelazione di anomalie calcolando distanza di Mahalanobis e follow qualcosa di simile a questo ?
NULL

10

Un modo generale per ottenere informazioni dettagliate sulle statistiche dei test è quello di ricavare le ipotesi sottostanti (di solito implicite) che porterebbero la statistica dei test ad essere più potente. Per questo caso particolare uno studente e io abbiamo recentemente fatto questo: http://arxiv.org/abs/1111.1210v2 (una versione rivista deve apparire in Annals of Applied Statistics).

Riassumendo molto brevemente (e coerentemente con i risultati della simulazione in un'altra risposta) il metodo di Stouffer sarà più potente quando gli effetti "reali" sottostanti saranno tutti uguali; la somma di Z ^ 2 sarà più potente quando gli effetti sottostanti sono normalmente distribuiti su 0. Questa è una leggera semplificazione che omette i dettagli: vedere la sezione 2.5 nella prestampa di arxiv collegata sopra per maggiori dettagli.


2
(+1) In qualche modo pensavo di averlo scritto molto tempo fa, ma sembra di no: grazie mille per esserti registrato qui specificamente per rispondere alla mia domanda! Lo apprezzo. La sezione 2.5 del tuo documento è davvero molto rilevante.
ameba dice Ripristina Monica il

3

Leggermente o / t: uno dei problemi con entrambi questi approcci è la perdita di potere dovuta ai gradi di libertà (N per lo stouffer; 2N per Fisher). Ci sono stati migliori approcci meta-analitici sviluppati per questo, che potresti prendere in considerazione (meta-analisi ponderata con varianza inversa, per esempio).

Se stai cercando prove di alcuni test alternativi all'interno di un gruppo, potresti voler esaminare la statistica delle critiche più alte di Donoho e Jin: https://projecteuclid.org/euclid.aos/1085408492


1

Per rispondere alla domanda e per eventuali altri lettori: viene mai usato ?, c'è un documento esauriente di Cousins ​​(2008) su arXiv, che elenca e recensisce un paio di approcci alternativi. Quello proposto non sembra apparire.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.