Perché il test di Kolmogorov-Smirnov funziona?


25

Nel leggere il test KS a 2 campioni, capisco esattamente cosa sta facendo, ma non capisco perché funzioni .

In altre parole, posso seguire tutti i passaggi per calcolare le funzioni di distribuzione empirica, trovare la massima differenza tra i due per trovare la statistica D, calcolare i valori critici, convertire la statistica D in un valore p ecc.

Ma non ho idea del perché nulla di tutto ciò mi dica qualcosa sulle due distribuzioni.

Qualcuno avrebbe potuto dirmi altrettanto facilmente che ho bisogno di saltare su un asino e contare la velocità con cui scappa e se la velocità è inferiore a 2 km / h, allora rifiuto l'ipotesi nulla. Certo che posso fare quello che mi hai detto di fare, ma cosa c'entra tutto ciò con l'ipotesi nulla?

Perché il test KS a 2 campioni funziona? Cosa c'entra il calcolo della differenza massima tra gli ECDF e quanto sono diverse le due distribuzioni?

Qualsiasi aiuto è apprezzato. Non sono uno statistico, quindi supponiamo che io sia un idiota, se possibile.


4
Benvenuto in CV, Darcy! Ottima domanda!
Alexis,

1
Salta sopra un asino ... :)
Richard Hardy,

Risposte:


9

Fondamentalmente, il test è coerente come risultato diretto del teorema di Glivenko Cantelli, uno dei risultati più importanti dei processi empirici e forse delle statistiche.

GC ci dice che la statistica del test di Kolmogorov Smirnov va a 0 come n sotto l'ipotesi nulla. Può sembrare intuitivo fino a quando non ti affronti con un'analisi reale e limiti i teoremi. Questa è una rivelazione perché il processo può essere pensato come un numero infinito infinito di processi casuali, quindi le leggi o la probabilità porterebbero a credere che c'è sempre un punto che potrebbe superare qualsiasi confine epsilon ma no, il supremum converge in la lunga corsa.

Per quanto? Mmyyeeaa non lo so. La potenza del test è piuttosto dubbia. Non lo userei mai in realtà.

http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf


2
+1 Ciao AdamO! Hai una frase da una a due sul potere che è "una specie di dubbio?" Mi piacerebbe quella prospettiva (ho capito che il test è considerato facilmente "sopraffatto").
Alexis,

1
@Alexis Il test non è sopraffatto, IRL non ci aspettiamo quasi mai che il valore nullo sia vero, piuttosto non ci importa se il 99,999 ° percentile differisce di 0,1 tra e F 2. , Quindi ogni volta che vedo p > 0,05 dal test KS, tutto quello che penso è: "questo è un falso negativo" e ogni volta che vedo p < 0.05 penso "urlo-dee-do quindi cosa si può dire di che ?". I test della forte ipotesi nulla F 1 = F 2 non sono un modo convincente di presentare prove scientifiche. F1F2p>0.05p<0.05F1=F2
AdamO,

1
Ok. Mi preoccupo per i test di ipotesi per la differenza. Ma la tua preoccupazione per il potere deriva dalla semplice convinzione ontologica che quasi sicuramente F 2 ? o c'è qualcos'altro di più riguardo agli asintotici o qualcos'altro? F1F2
Alexis,

2
@Alexis no, non ho problemi con la matematica del test. In effetti, penso che sia abbastanza elegante e il risultato del teorema limite è molto impressionante.
AdamO

2
@Alexis, dirò, nelle impostazioni in cui è possibile che sia esattamente uguale a F 2 , il test può essere abbastanza utile. Sono d'accordo che non molte applicazioni scientifiche sostanziali si adattano a quella fattura, ma in un contesto di calcolo statistico in cui vuoi convalidare che alcuni software che hai scritto sta generando numeri pseudo casuali da una distribuzione nota, è abbastanza utile. Codifica efficacemente l'intuizione che otterresti osservando i grafici di probabilità. F1F2
jcz,

9

Abbiamo due campioni univariati indipendenti:

X1,X2,...,XNiidFY1,Y2,...,YMiidG,
doveGeFsono funzioni di distribuzione cumulativa continua. Il test di Kolmogorov-Smirnov sta testando
H0:F(x)=G(x)for all xRH1:F(x)G(x)for some xR.
Se l'ipotesi nulla è vera, allora{Xi}i=1N e{Yj}j=1M sono campioni della stessa distribuzione. Tutto ciò che serve perXieYjper attingere da diverse distribuzioni è cheFeGdifferiscano di qualsiasi importo di almeno unvalorex. Quindi il test KS sta valutandoFeGcon le CDF empirici di ogni campione, focalizzando il più grande differenza puntuale tra i due, e chiedendo se questa è "abbastanza grande" per concludere che F(x)G(x) in qualche xR .


8

Un'intuizione intuitiva:

Il test di Kolmogorov-Smirnov si basa sostanzialmente sull'ordinamento delle osservazioni per distribuzione. La logica è che se le due distribuzioni sottostanti sono uguali, allora - a seconda delle dimensioni del campione - l'ordinamento dovrebbe essere mischiato abbastanza bene tra i due.

YXD

DXY

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.