Il test di Kolmogorov-Smirnov è valido con distribuzioni discrete?


29

Sto confrontando un campione e sto verificando se distribuisce come una distribuzione discreta. Tuttavia, non sono pienamente sicuro che si applichi Kolmogorov-Smirnov. Wikipedia sembra implicare che non lo sia. In caso contrario, come posso testare la distribuzione del campione?


+1 Un bell'esempio di applicazione errata del test KS ai dati con (molti) legami è riportato nella pagina di aiuto per un componente aggiuntivo di statistiche Excel su real-statistics.com/non-parametric-tests/goodness-of-fit- test /… . Il risultato è sbagliato per molte ragioni. Avvertimento!
whuber

Sono disponibili test KS per distribuzioni nulle discrete: en.wikipedia.org/wiki/…
Astrid

Risposte:


14

Non si applica alle distribuzioni discrete. Vedi http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm per esempio.

C'è qualche motivo per cui non è possibile utilizzare un test di bontà chi-fit di adattamento? vedi http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm per maggiori informazioni.


Ci scusiamo per l'intrusione, ma non capisco davvero perché sia ​​applicabile solo alla distribuzione continua (KS e altri test di validazione). Qualcuno può spiegarmi questo fatto?
Maurizio,

6
@Maurizio - la statistica del test KS ha la stessa distribuzione in tutte le distribuzioni continue , ma se la distribuzione effettiva non è continua e si prova a costruire un test di livello ipotizzando che la distribuzione sia continua, quindi il livello effettivo del test con essere inferiore a α . (cfr. Lehmann e Romano Testing Statistical Hypotheses, Third Edition , p. 584). Puoi ancora effettuare un test di livello α basato sulla statistica KS, ma dovrai trovare qualche altro metodo per ottenere il valore critico, ad esempio mediante simulazione. ααα
David R


7

Come spesso accade nelle statistiche, dipende da cosa intendi .

  1. Se intendi "Calcolo la mia statistica di prova su un campione estratto da una distribuzione discreta e poi cerco le tabelle standard", otterrai un tasso di errore di tipo I inferiore a quello che hai scelto (probabilmente molto più basso).

    Quanto dipende da "quanto è discreta" la distribuzione. Se la probabilità di uno qualsiasi dei risultati è piuttosto bassa (quindi ci si aspetta che la percentuale di valori legati nei dati sia bassa), non importa molto - molte persone non avrebbero problemi a eseguire un 5 % test al 4,5% afferma. Ad esempio, se stai testando un'uniforme discreta su [1.1000], probabilmente non dovrai preoccuparti.

    Ma se c'è un'alta probabilità che un valore sia legato, allora l'effetto sul tasso di errore di tipo I può essere contrassegnato. Se si ottiene un livello di significatività di 0,005 quando si desidera 0,05, questo potrebbe essere un problema, poiché avrà un impatto corrispondente sulla potenza.

  2. Se invece intendi "Calcolo la mia statistica di prova su un campione prelevato da una distribuzione discreta e quindi uso un valore critico adeguato / calcolo un valore p adatto alla mia situazione" (ad esempio tramite un test di permutazione), quindi il test è certamente valido nel senso che otterrai il giusto tasso di errore di tipo I - ovviamente fino alla discrezione della statistica di test stessa. (Anche se potrebbero esserci test migliori per il tuo scopo particolare, proprio come di solito ci sono nel caso continuo.)

    Si noti che la distribuzione della statistica test non è più libera da distribuzione ma un test di permutazione evita tale problema.

Quindi a volte va bene usare le tabelle standard anche con distribuzioni discrete, e anche quando non va bene, non è tanto la statistica di test quanto i valori / valori p critici che usi con essa che è il problema.


Come al solito Glen, la tua risposta è di alta qualità. Ma forse la parte migliore è che hai fatto eco allo scherzo che ho fatto in questo post sugli statistici dicendo "dipende"! stats.stackexchange.com/questions/182442/…
Sycorax dice

1
@ user777 che non è stato accidentale; mi ha divertito e stavo pensando mentre leggevo questa domanda "beh, dipende" ... quindi mi sono assicurato di dirlo esplicitamente per fare eco al tuo post.
Glen_b -Restate Monica,

1
La mia serata è appena migliorata. Saluti!
Sycorax dice di reintegrare Monica il

2

XFF(X)XXF(X)=X

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.