R: testare la normalità dei residui del modello lineare - quali residui utilizzare


13

Vorrei fare un test W di Shapiro Wilk e un test Kolmogorov-Smirnov sui residui di un modello lineare per verificare la normalità. Mi stavo solo chiedendo quali residui dovrebbero essere usati per questo - i residui grezzi, i residui di Pearson, i residui studentizzati o i residui standardizzati? Per un test W di Shapiro-Wilk sembra che i risultati per i residui grezzi e di Pearson siano identici ma non per gli altri.

fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143

Stessa domanda per KS, e anche se i residui devono essere testati contro una distribuzione normale (pnorm) come in

ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563

o una distribuzione t-student con nk-2 gradi di libertà, come in

ks.test(res3, "pt",df=nrow(mtcars)-2-2) 

Qualche consiglio forse? Inoltre, quali sono i valori raccomandati per le statistiche di test W (> 0.9?) E D in modo che la distribuzione sia sufficientemente vicina alla normalità e non influisca troppo sull'inferenza?

Infine, questo approccio tiene conto dell'incertezza nei coefficienti di lm adattati o funzionerebbe meglio nel cumres()pacchetto gof()in questo senso?

saluti, Tom


9
È raro che un simile test abbia qualche punto. Chiediti quali azioni specifiche intraprenderesti se i residui si rivelassero "significativamente" non normali. L'esperienza ti insegna che dipende da come e quanto differiscono dalla normalità. Nessuno di questi è misurato direttamente (o adeguatamente) da SW, KS o da qualsiasi altro test di distribuzione formale. Per questo lavoro vuoi impiegare grafici esplorativi, non test formali. La questione di quali residui potrebbero essere adatti per la stampa rimane ancora, ma le restanti domande cadono sul ciglio della strada in quanto irrilevanti.
whuber

Sì, ho notato che molti statistici sostengono questa posizione. Ma vorrei ancora controllare le statistiche dei test di questi test (ad esempio, verificare se il valore di Shapiro Wilks W è maggiore di 0,9). E potrei sempre fare una trasformazione Box-Cox o qualcosa del genere per migliorare la normalità in caso di grandi deviazioni. Inoltre la mia domanda era anche parzialmente concettuale - cioè quale sarebbe il modo più corretto di farlo, anche se la normalità non è sempre così importante nella pratica ...
Tom Wenseleers

Risposte:


9

Cresciuto troppo a lungo per un commento.

  1. Per un normale modello di regressione (come quello che verrebbe adattato da lm), non c'è distinzione tra i primi due tipi residui che si considerano; type="pearson"è rilevante per i GLM non gaussiani, ma è lo stesso responsedei modelli gaussiani.

  2. Le osservazioni a cui applichi i tuoi test (qualche forma di residuo) non sono indipendenti, quindi le normali statistiche non hanno la distribuzione corretta. Inoltre, a rigor di termini, nessuno dei residui che consideri sarà esattamente normale, poiché i tuoi dati non saranno mai esattamente normali. [I test formali rispondono alla domanda sbagliata - una domanda più pertinente sarebbe "in che misura questa non normalità avrà un impatto sulla mia inferenza?", Una domanda a cui non si risponde dalla solita bontà del test di ipotesi adatta.]

  3. Anche se i tuoi dati fossero esattamente normali, né il terzo né il quarto tipo di residuo sarebbero esattamente normali. Tuttavia è molto più comune per le persone esaminare quelle (diciamo con i diagrammi QQ) rispetto ai residui grezzi.

  4. X

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.