Mi piacerebbe capire l'uso della simulazione Monte Carlo nella chisq.test()
funzione in R.
Ho una variabile qualitativa che ha 128 livelli / classi. La mia dimensione del campione è 26 (non sono stato in grado di campionare più "individui"). Quindi, ovviamente, avrò alcuni livelli con 0 "individui". Ma il fatto è che ho solo un numero molto piccolo di classi rappresentate tra le 127 possibili. Dato che ho sentito che per applicare il test del chi-quadrato dovremmo avere almeno 5 individui in ogni livello (non ne capisco completamente il motivo), ho pensato di dover usare l' simulate.p.value
opzione per usare la simulazione Monte Carlo per stimare la distribuzione e calcola un valore p. Senza la simulazione Monte Carlo, R mi dà un valore p < 1e-16
. Con la simulazione Monte Carlo, mi dà un valore p a 4e-5
.
Ho provato a calcolare il valore p con un vettore di 26 e 101 zeri e con la simulazione Monte-Carlo ottengo un valore p a 1.
Va bene affermare che, anche se la mia dimensione del campione è piccola rispetto al numero di classi possibili, la distribuzione osservata è tale che è molto improbabile che tutte le classi possibili esistano alla stessa probabilità (1/127) nella popolazione reale ?