La spiegazione nella pagina di riferimento è
Sotto l'ipotesi nulla, la probabilità è esattamente quando vengono prese in considerazione sia la casualità nei dati sia la casualità nella simulazione.Pr(P≤k/nsim)k/nsim
Per capirlo, dobbiamo guardare al codice, di cui sono le linee chiave (considerevolmente abbreviate)
fred <- function(x) {ks.test(...)$statistic} # Apply a statistical test to an array
d.hat <- fred(x) # Apply the test to the data
d.star <- apply(matrix(rnorm(n*nsim), n, nsim),
2, fred) # Apply the test to nsim simulated datasets
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)# Estimate a simulation p-value
Il problema saliente è che il codice non corrisponde all'offerta. Come possiamo riconciliarli? Un tentativo inizia con l'ultima metà dell'offerta. Potremmo interpretare la procedura come comprendente i seguenti passaggi:
Raccogliere indipendenti e identicamente distribuite dati secondo una legge di probabilità . Applicare una procedura di prova (implementata nel codice come ) per produrre il numero .X1,X2,…,XnGtfred
T0=t(X1,…,Xn)
Generazione tramite calcolatore serie di dati comparabili, ciascuno di dimensioni , secondo un'ipotesi nulla con la legge di probabilità . Applicare a ciascuno di questi set di dati per produrre numeri .N=nsimnFtNT1,T2,…,TN
Calcola
P=(∑i=1NI(Ti>T0)+1)/(N+1).
(" " è la funzione dell'indicatore implementata dal confronto a valori vettoriali nel codice.) Il lato destro è inteso come casuale in virtù della casualità simultanea di (la statistica del test effettivo) e della casualità del ( le statistiche di prova simulate). Id.star > d.hat
T0Ti
A dire che i dati conformi allo ipotesi nulla è affermare che . Scegli una dimensione di prova , . Moltiplicare entrambi i lati per e sottrarre mostra che la possibilità che per qualsiasi numero sia la possibilità che non più di del superi . Questo dice semplicemente che trova nella parte superiore dell'insieme ordinato di tutte le statistiche di test . Da (per costruzione)F=Gα0<α<1N+11P≤αα(N+1)α−1TiT0T0(N+1)αN+1T0è indipendente da tutto il , quando è una distribuzione continua questa possibilità sarà la frazione del totale rappresentato dalla parte intera ; cioè, e sarà esattamente uguale a quello fornito è un numero intero ; cioè quando .TiF⌊(N+1)α⌋
Pr(P≤α)=⌊(N+1)α⌋N+1≈α
(N+1)αkα=k/(N+1)
Questa è certamente una delle cose che vogliamo essere vere per qualsiasi quantità che merita di essere chiamata un "valore p": dovrebbe avere una distribuzione uniforme su . A condizione che sia abbastanza grande, in modo che qualsiasi sia vicino ad una frazione della forma , questa avrà vicino a un'uniforme distribuzione. (Per informazioni sulle condizioni aggiuntive richieste per un valore p, leggi la finestra di dialogo che ho pubblicato sull'argomento dei valori p. )[0,1]N+1αk/(N+1)=k/(nsim+1)P
Evidentemente la citazione dovrebbe usare " " invece di " " ovunque appaia.nsim+1nsim