Posso usare Kolmogorov-Smirnov per confrontare due distribuzioni empiriche?


16

È corretto utilizzare il test di bontà di adattamento di Kolmogorov-Smirnov per confrontare due distribuzioni empiriche per determinare se sembrano provenire dalla stessa distribuzione sottostante, piuttosto che confrontare una distribuzione empirica con una distribuzione di riferimento predefinita?

Lasciami provare a chiederlo in un altro modo. Raccolgo N campioni da una certa distribuzione in una posizione. Raccolgo M campioni in un'altra posizione. I dati sono continui (ogni campione è un numero reale tra 0 e 10, diciamo) ma normalmente non distribuito. Voglio verificare se questi campioni N + M provengono tutti dalla stessa distribuzione sottostante. È ragionevole utilizzare il test Kolmogorov-Smirnov per questo scopo?

In particolare, ho potuto calcolare la distribuzione empirica dai campioni N e la distribuzione empirica F 1 dai campioni M. Quindi, potrei calcolare la statistica del test di Kolmogorov-Smirnov per misurare la distanza tra F 0 e F 1 : vale a dire, calcolare D = sup x | F 0 ( x ) - F 1 ( x ) | e usa DF0NF1MF0F1D=supx|F0(x)F1(x)|Dcome la mia statistica di prova come nel test di Kolmogorov-Smirnov per la bontà di adattamento. È un approccio ragionevole?

(Ho letto altrove che il test di Kolmogorov-Smirnov per la bontà di adattamento non è valido per distribuzioni discrete , ma ammetto di non capire cosa significhi o perché potrebbe essere vero. Significa che il mio approccio proposto è negativo? )

Oppure, mi consiglia qualcos'altro invece?


Mi chiedo se, in base ai commenti di @ Glen_b qui ( stats.stackexchange.com/questions/362/… ), non si dovrebbe usare il test KS per confrontare le distribuzioni empiriche perché il test KS non dovrebbe essere usato quando i parametri sono stimati (? ).
russellpierce,

Risposte:


19

Va bene, e abbastanza ragionevole. Viene definito test di Kolmogorov-Smirnov a due campioni . Misurare la differenza tra due funzioni di distribuzione da parte del supnorm è sempre sensato, ma per fare un test formale si vuole conoscere la distribuzione secondo l'ipotesi che i due campioni siano indipendenti e ciascuno iid dalla stessa distribuzione sottostante. Per fare affidamento sulla solita teoria asintotica avrai bisogno di continuità della distribuzione comune sottostante (non delle distribuzioni empiriche). Vedi la pagina Wikipedia collegata sopra per maggiori dettagli.

ks.testp


8
In R puoi anche eseguire un test KS bootstrap sekhon.berkeley.edu/matching/ks.boot.html che elimina il requisito di continuità
Dr G

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.