Perché il test di McNemar usa chi-quadro e non la distribuzione normale?


11

Ho appena notato come il test di McNemar non esatto usi la distribuzione asintotica del chi quadro. Ma poiché il test esatto (per la tabella dei due casi) si basa sulla distribuzione binomiale, come mai non è comune suggerire la normale approssimazione alla distribuzione binomiale?

Grazie.

Risposte:


15

Una risposta quasi intuitiva:

Dai un'occhiata più da vicino alla formula per il test McNemar, vista la tabella

      pos | neg
----|-----|-----
pos |  a  |  b
----|-----|-----
neg |  c  |  d

La statistica McNemar Mè calcolata come:

M=(bc)2b+c

La definizione di una distribuzione con k gradi di libertà è che consiste nella somma dei quadrati di k variabili normali standard indipendenti. se i 4 numeri sono abbastanza grandi, e , quindi, e possono essere approssimati da una distribuzione normale. Data la formula per M, si vede facilmente che con valori abbastanza grandi seguirà effettivamente circa una distribuzione con 1 grado di libertà.χ2bcb-cb+cMχ2


MODIFICA: Come onstop giustamente indicato, l'approssimazione normale è in effetti completamente equivalente. È piuttosto banale dato l'argomento usando l'approssimazione della b-cdistribuzione normale.

La versione binomiale esatta equivale anche al test dei segni, nel senso che in questa versione la distribuzione binomiale viene utilizzata per confrontare bcon . Oppure possiamo dire che sotto l'ipotesi nulla la distribuzione di b può essere approssimata da .Binom(b+c,0.5)N(0.5×(b+c),0.52×(b+c)

O, equivalentemente:

b(b+c2)b+c2N(0,1)

che semplifica

bcb+cN(0,1)

oppure, quando viene preso il quadrato su entrambi i lati, su .Mχ12

Quindi, viene utilizzata l'approssimazione normale . È lo stesso dell'approssimazione .χ2


3
Giusto. La connessione può forse essere vista più chiaramente considerando Sqrt (M) = (bc) / Sqrt (b + c). Approssimando la varianza di b come b e la varianza di c come c (come al solito con i dati contati), vediamo che Sqrt (M) sembra una variazione approssimativamente normale (bc) divisa per la sua deviazione standard: in altre parole, sembra una variabile normale standard . In effetti, potremmo condurre un test equivalente facendo riferimento a Sqrt (M) a una tabella della distribuzione normale standard. La sua quadratura rende il test simmetrico a due code. Ovviamente questo si interrompe se b o c è piccolo.
whuber

Grazie per la risposta intuitiva Joris. Tuttavia, perché è più comune usare questa approssimazione piuttosto che usare l'approssimazione normale all'esatto test binomiale di McNemar?
Tal Galili,

@Tal: è lo stesso. Vedi la risposta senza sosta e la mia modifica.
Joris Meys,

In realtà - ultima domanda. Quindi, se entrambi sono identici (e penso che potresti anche aver bisogno di un "valore assoluto" attorno al bc), allora perché le persone vanno alla distribuzione chi invece di stare con quella normale? Dov'è il vantaggio?
Tal Galili,

1
@Tal: Sai che R. traccia la chi2 con un grado di libertà, vedrai.
Joris Meys,

8

I due approcci non arrivano alla stessa cosa? La relativa distribuzione chi-quadro ha un grado di libertà, quindi è semplicemente la distribuzione del quadrato di una variabile casuale con una distribuzione normale standard. Dovrei passare attraverso l'algebra per controllare, cosa che non ho tempo di fare in questo momento, ma sarei sorpreso se non finissi con la stessa risposta in entrambi i modi.


vedere la mia risposta per ulteriori elaborazioni
Joris Meys,

Ciao onestop - Dato che entrambi sono asintotici, quindi per le N più piccole potrebbero produrre risultati leggermente diversi. In tal caso, mi chiedo se la scelta di andare con chi-quadrato sia perché è migliore della normale approssimazione, o per motivi storici (o forse, come hai suggerito, producono sempre risultati identici)
Tal Galili

@Tal: per N più piccola, nessuna delle due tiene. E come mostrato nella mia modifica, sono esattamente gli stessi.
Joris Meys,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.