Regole per applicare la simulazione Monte Carlo dei valori p per il test chi-quadrato


9

Mi piacerebbe capire l'uso della simulazione Monte Carlo nella chisq.test()funzione in R.

Ho una variabile qualitativa che ha 128 livelli / classi. La mia dimensione del campione è 26 (non sono stato in grado di campionare più "individui"). Quindi, ovviamente, avrò alcuni livelli con 0 "individui". Ma il fatto è che ho solo un numero molto piccolo di classi rappresentate tra le 127 possibili. Dato che ho sentito che per applicare il test del chi-quadrato dovremmo avere almeno 5 individui in ogni livello (non ne capisco completamente il motivo), ho pensato di dover usare l' simulate.p.valueopzione per usare la simulazione Monte Carlo per stimare la distribuzione e calcola un valore p. Senza la simulazione Monte Carlo, R mi dà un valore p < 1e-16. Con la simulazione Monte Carlo, mi dà un valore p a 4e-5.

Ho provato a calcolare il valore p con un vettore di 26 e 101 zeri e con la simulazione Monte-Carlo ottengo un valore p a 1.

Va bene affermare che, anche se la mia dimensione del campione è piccola rispetto al numero di classi possibili, la distribuzione osservata è tale che è molto improbabile che tutte le classi possibili esistano alla stessa probabilità (1/127) nella popolazione reale ?


3
Se i tuoi dati sono davvero che hai osservato 26 classi distinte su un campione di 26, allora sostanzialmente non hai prove contro l'ipotesi che tutte le 127 classi abbiano la stessa probabilità. Questo può essere valutato con un calcolo della distribuzione multinomiale.
whuber

1
" Come ho sentito dire che per applicare il test chi-quadrato dovremmo avere almeno 5 individui in ogni livello (non capisco completamente il motivo) " - non del tutto. Il consiglio originale era che il conteggio atteso , non il conteggio effettivo dovrebbe essere almeno 5. L'obiettivo con quella regola (ormai obsoleta) era di cercare di assicurarsi che la distribuzione chi-quadro fosse una ragionevole approssimazione alla distribuzione discreta del statistica test. Il consiglio di una serie di documenti negli ultimi 4 decenni circa è "quella regola è un po 'troppo rigida".
Glen_b

Risposte:


6

Effettuando la ricerca, sembra che il punto della simulazione Monte-Carlo sia produrre una distribuzione di riferimento, basata su campioni generati casualmente che avranno le stesse dimensioni del campione testato, al fine di calcolare i valori p quando le condizioni del test non sono soddisfatte.

Questo è spiegato in Hope A. J Royal Stat Society Series B (1968) che può essere trovato su JSTOR .

Ecco una citazione pertinente dal documento Hope:

Le procedure di test di significatività Monte-Carlo consistono nel confronto dei dati osservati con campioni casuali generati secondo l'ipotesi in esame. ... È preferibile utilizzare un test noto di buona efficienza invece di una procedura di test Monte-Carlo ipotizzando che l'ipotesi statistica alternativa possa essere completamente specificata. Tuttavia, non è sempre possibile utilizzare tale test perché le condizioni necessarie per l'applicazione del test potrebbero non essere soddisfatte, oppure la distribuzione sottostante potrebbe essere sconosciuta o potrebbe essere difficile decidere un criterio di test appropriato.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.