Qual è la differenza tra il test di normalità di Shapiro-Wilk e il test di normalità di Kolmogorov-Smirnov? Quando differiranno i risultati di questi due metodi?
Qual è la differenza tra il test di normalità di Shapiro-Wilk e il test di normalità di Kolmogorov-Smirnov? Quando differiranno i risultati di questi due metodi?
Risposte:
Non puoi nemmeno confrontare i due poiché Kolmogorov-Smirnov è per una distribuzione completamente specificata (quindi se stai testando la normalità, devi specificare la media e la varianza; non possono essere stimati dai dati *), mentre Shapiro-Wilk è per la normalità, con media e varianza non specificate.
* non è inoltre possibile standardizzare utilizzando i parametri stimati e testare lo standard normale; è in realtà la stessa cosa.
Un modo per confrontare sarebbe integrare Shapiro-Wilk con un test per media e varianza specificate in modo normale (combinando i test in qualche modo), o facendo aggiustare le tabelle KS per la stima dei parametri (ma poi non è più la distribuzione -gratuito).
Esiste un tale test (equivalente al Kolmogorov-Smirnov con parametri stimati) - il test di Lilliefors; la versione del test di normalità potrebbe essere validamente paragonata a quella di Shapiro-Wilk (e avrà generalmente una potenza inferiore). Più competitivo è il test Anderson-Darling (che deve anche essere adattato per la stima dei parametri affinché un confronto sia valido).
Per quanto riguarda ciò che testano, il test KS (e Lilliefors) esamina la più grande differenza tra il CDF empirico e la distribuzione specificata, mentre Shapiro Wilk confronta effettivamente due stime di varianza; la Shapiro-Francia strettamente correlata può essere considerata una funzione monotonica della correlazione al quadrato in un diagramma QQ; se ricordo bene, lo Shapiro-Wilk tiene conto anche delle covarianze tra le statistiche dell'ordine.
[Va tenuto presente che esistono molti più test per la normalità disponibili rispetto a questi.]
hist(replicate(1000,ks.test(scale(rnorm(x)),pnorm)$p.value))
- se i valori p fossero come dovrebbero essere, sembrerebbero uniformi!
In breve, il test di Shapiro-Wilk è un test specifico per la normalità, mentre il metodo usato dal test di Kolmogorov-Smirnov è più generale, ma meno potente (nel senso che rifiuta correttamente l'ipotesi nulla della normalità meno spesso). Entrambe le statistiche prendono la normalità come nulla e stabiliscono una statistica di prova basata sul campione, ma il modo in cui lo fanno è diverso l'uno dall'altro in modo da renderli più o meno sensibili alle caratteristiche delle normali distribuzioni.
Come viene calcolato esattamente W (la statistica del test per Shapiro-Wilk) è un po 'coinvolto , ma concettualmente comporta la raccolta dei valori del campione per dimensione e la misura dell'adattamento rispetto alle medie, varianze e covarianze previste. Questi paragoni multipli contro la normalità, a quanto ho capito, danno al test più potenza del test di Kolmogorov-Smirnov, che è un modo in cui possono differire.
Al contrario, il test di Kolmogorov-Smirnov per la normalità deriva da un approccio generale per valutare la bontà dell'adattamento confrontando la distribuzione cumulativa attesa con la distribuzione cumulativa empirica, in riferimento a:
Come tale, è sensibile al centro della distribuzione e non le code. Tuttavia, il test KS è convergente, nel senso che siccome n tende all'infinito, il test converge alla vera risposta in probabilità (credo che il teorema di Glivenko-Cantelli si applichi qui, ma qualcuno potrebbe correggermi). Questi sono altri due modi in cui questi due test potrebbero differire nella loro valutazione della normalità.