Sto cercando di applicare l'esatto test di Fisher in un problema di genetica simulata, ma i valori di p sembrano essere distorti a destra. Essendo un biologo, credo che manchi qualcosa di ovvio per ogni statistico, quindi apprezzerei molto il tuo aiuto.
La mia configurazione è questa: (configurazione 1, i margini non sono fissi)
Due campioni di 0 e 1 vengono generati casualmente in R. Ogni campione n = 500, le probabilità di campionamento 0 e 1 sono uguali. Quindi confronto le proporzioni di 0/1 in ciascun campione con l'esatto test di Fisher (solo fisher.test
; ho anche provato altri software con risultati simili). Il campionamento e il test vengono ripetuti 30.000 volte. I valori p risultanti sono distribuiti in questo modo:
La media di tutti i valori p è di circa 0,55, 5 ° percentile a 0,0577. Anche la distribuzione appare discontinua sul lato destro.
Ho letto tutto quello che posso, ma non trovo alcuna indicazione che questo comportamento sia normale - d'altra parte, sono solo dati simulati, quindi non vedo alcuna fonte di errori. C'è qualche aggiustamento che ho perso? Dimensioni del campione troppo piccole? O forse non dovrebbe essere distribuito uniformemente e i valori p sono interpretati in modo diverso?
O dovrei semplicemente ripetere questo milione di volte, trovare il quantile 0,05 e usarlo come limite di significatività quando lo applico ai dati reali?
Grazie!
Aggiornare:
Michael M ha suggerito di fissare i valori marginali di 0 e 1. Ora i valori p danno una distribuzione molto più bella - sfortunatamente, non è uniforme, né di qualsiasi altra forma che riconosco:
aggiungendo il codice R attuale: (setup 2, marginals fixed)
samples=c(rep(1,500),rep(2,500))
alleles=c(rep(0,500),rep(1,500))
p=NULL
for(i in 1:30000){
alleles=sample(alleles)
p[i]=fisher.test(samples,alleles)$p.value
}
hist(p,breaks=50,col="grey",xlab="p-values",main="")
Modifica finale:
come sottolinea whuber nei commenti, le aree sembrano distorte a causa del binning. Allego i grafici QQ per l'installazione 1 (marginali liberi) e l'installazione 2 (marginali fissi). Trame simili sono state osservate nelle simulazioni di Glen di seguito e tutti questi risultati sembrano piuttosto uniformi. Grazie per l'aiuto!