Intervallo di confidenza per chi-quadrato


10

Sto cercando di trovare una soluzione per confrontare due test "chi-quadrato di bontà di adattamento". Più precisamente, voglio confrontare i risultati di due esperimenti indipendenti. In questi esperimenti gli autori hanno usato il chi-quadrato di bontà di adattamento per confrontare ipotesi casuali (frequenze attese) con frequenze osservate. I due esperimenti hanno ottenuto lo stesso numero di partecipanti e le procedure sperimentali sono identiche, solo gli stimoli sono cambiati. I risultati dei due esperimenti hanno indicato un chi-quadrato significativo (exp. 1: X² (18) = 45; p <.0005 ed exp. 2: X² (18) = 79; p <.0001).

Ora, quello che voglio fare è verificare se c'è una differenza tra questi due risultati. Penso che una soluzione potrebbe essere l'uso di intervalli di confidenza, ma non so come calcolare questi intervalli di confidenza solo con questi risultati. O forse un test per confrontare la dimensione dell'effetto (Cohen's w)?

Qualcuno ha una soluzione?

Molte grazie!

FD


1
Ciao Florian. Perché non usare un test di permutazione sulla differenza tra i quadrati chi?
Tal Galili,

Ciao e grazie per la tua risposta! Semplicemente perché non conosco davvero i test di permutazioni. È possibile eseguire la permutazione solo con due valori chi-quadrati (non ho dati grezzi, solo i risultati)? Grazie ancora :)
Florian,

Risposte:


8

Le informazioni molto limitate che hai sono sicuramente un grave vincolo! Tuttavia, le cose non sono del tutto senza speranza.

Con le stesse ipotesi che portano alla distribuzione asintotica per la statistica test dell'omonimo test di bontà di adattamento, la statistica test sotto l'ipotesi alternativa ha, asintoticamente, una distribuzione non centrale . Se assumiamo che i due stimoli siano a) significativi e b) abbiano lo stesso effetto, le statistiche dei test associati avranno la stessa distribuzione asintotica non centrale . Possiamo usarlo per costruire un test - fondamentalmente, stimando il parametro di non centralità e vedendo se le statistiche del test sono lontane dalle code della distribuzione noncentrica . (Questo non vuol dire che questo test avrà molto potere, però.)χ 2 χ 2 λ χ 2 ( 18 , λ )χ2χ2χ2λχ2(18,λ^)

Possiamo stimare il parametro di non centralità dati le due statistiche del test prendendo la loro media e sottraendo i gradi di libertà (un metodo di stima dei momenti), dando una stima di 44, o con la massima probabilità:

x <- c(45, 79)
n <- 18

ll <- function(ncp, n, x) sum(dchisq(x, n, ncp, log=TRUE))
foo <- optimize(ll, c(30,60), n=n, x=x, maximum=TRUE)
> foo$maximum
[1] 43.67619

Buon accordo tra le nostre due stime, in realtà non sorprendente dato due punti dati e i 18 gradi di libertà. Ora per calcolare un valore p:

> pchisq(x, n, foo$maximum)
[1] 0.1190264 0.8798421

Quindi il nostro valore p è 0,12, non sufficiente a respingere l'ipotesi nulla che i due stimoli siano gli stessi.

Questo test ha effettivamente (approssimativamente) un tasso di rifiuto del 5% quando i parametri di non centralità sono gli stessi? Ha qualche potere? Tenteremo di rispondere a queste domande costruendo una curva di potenza come segue. Innanzitutto, fissiamo la media al valore stimato di 43,68. Le distribuzioni alternative per le due statistiche di test saranno non centrali con 18 gradi di libertà e parametri di non centralità per . Simuleremo 10000 estrazioni da queste due distribuzioni per ogni e vedremo con che frequenza il nostro test rifiuta, ad esempio, il livello di affidabilità del 90% e del 95%.χ 2 ( λ - δ , λ + δ ) δ = 1 , 2 , , 15 δλχ2(λδ,λ+δ)δ=1,2,,15δ

nreject05 <- nreject10 <- rep(0,16)
delta <- 0:15
lambda <- foo$maximum
for (d in delta)
{
  for (i in 1:10000)
  {
    x <- rchisq(2, n, ncp=c(lambda+d,lambda-d))
    lhat <- optimize(ll, c(5,95), n=n, x=x, maximum=TRUE)$maximum
    pval <- pchisq(min(x), n, lhat)
    nreject05[d+1] <- nreject05[d+1] + (pval < 0.05)
    nreject10[d+1] <- nreject10[d+1] + (pval < 0.10)
  }
}
preject05 <- nreject05 / 10000
preject10 <- nreject10 / 10000

plot(preject05~delta, type='l', lty=1, lwd=2,
     ylim = c(0, 0.4),
     xlab = "1/2 difference between NCPs",
     ylab = "Simulated rejection rates",
     main = "")
lines(preject10~delta, type='l', lty=2, lwd=2)
legend("topleft",legend=c(expression(paste(alpha, " = 0.05")),
                          expression(paste(alpha, " = 0.10"))),
       lty=c(1,2), lwd=2)

che fornisce quanto segue:

inserisci qui la descrizione dell'immagine

Osservando i veri punti di ipotesi nulli (valore dell'asse x = 0), vediamo che il test è conservativo, in quanto non sembra rifiutare tutte le volte che il livello indicherebbe, ma non in modo schiacciante. Come ci aspettavamo, non ha molto potere, ma è meglio di niente. Mi chiedo se ci sono test migliori là fuori, data la quantità molto limitata di informazioni che hai a disposizione.


Sono un principiante in questa roba, potrei chiederti come eseguire la sceneggiatura (se fosse una sceneggiatura) dalla risposta di jbowman. Nel mio caso, un tentativo di ottenere l'OR dal 90% CI. Sono davvero grato se uno di voi me lo può spiegare, e io uso PASW17

Ciao ash6. In realtà è uno script per il software R (per maggiori informazioni: r-project.org ), non sintassi per PASW17. Quindi questo script può essere eseguito direttamente nella console R. Questo script non calcola gli intervalli di confidenza ma ti fornisce il valore p (qui precisamente> pchisq (x, n, foo $ maximum ==> [1] p-value = 0.1190264) corrispondente al test di una differenza tra i 2 esperimenti (qui tra due stimoli, nel caso di ipotesi alternative), e qui non possiamo rifiutare l'ipotesi nulla che i due esperimenti abbiano dato gli stessi risultati.
Florian,

3

Potresti ottenere la V di Cramer, che è interpretabile come una correlazione, convertirla in una Z di Fisher, e quindi l'intervallo di confidenza di ciò è semplice (SE = 1 / sqrt (n-3): Z ± se * 1.96). Dopo aver ottenuto le estremità dell'elemento della configurazione, è possibile riconvertirle in r.

Hai mai considerato di mettere tutti i tuoi conteggi in una tabella di contingenza con un'ulteriore dimensione di esperimento?


Ho pensato che non fosse possibile usare un Phi con un bontà Pearson di fit-quadrato (1 variabile). Ecco perché ho parlato di w di Cohen ma le formule sono davvero simili (phi = X² / n e w = sqrt (X² / n))! Ma se è possibile calcolare il phi con questo test e applicare la trasformazione da r a z, accetteresti di darci un riferimento al preventivo? Vorremmo usare questo test in un articolo e pochi recensori possono essere molto esigenti con le statistiche. Sarebbe di grande aiuto per noi! Informazioni sulla tua domanda: non abbiamo dati grezzi solo valore X², df e p da un articolo pubblicato. Grazie mille per il vostro aiuto!
Florian,

Scusa ... intendevo mettere giù la V di Cramer, non il phi. La V di Cramer può essere usata come phi.
Giovanni

E no, non ho una citazione. Se hai un grande effetto, non importa se c'è un piccolo pregiudizio in questa misura. Se non hai un grande effetto, assicurati di non creare grandi ossa dal "significato" di qualsiasi test.
John,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.