Residui studentizzati v / s residui standardizzati nel modello lm


10

"Residui studentizzati" e "Residui standardizzati" sono gli stessi nei modelli di regressione? Ho costruito un modello di regressione lineare in R e volevo tracciare il grafico dei valori adattati dei residui Studentized v / s, ma non ho trovato un modo automatizzato per farlo in R.

Supponiamo che io abbia un modello

library(MASS)

lm.fit <- lm(Boston$medv~(Boston$lstat))

quindi l'utilizzo plot(lm.fit)non fornisce alcun diagramma dei residui studentizzati rispetto ai valori adattati, ma fornisce anche un diagramma dei residui standardizzati rispetto ai valori adattati.

Ho usato plot(lm.fit$fitted.values,studres(lm.fit)e tracciamo il grafico desiderato, quindi voglio solo confermare che sto andando nel modo giusto e che i residui studentizzati e standardizzati non sono la stessa cosa. Se sono diversi, fornisci una guida per calcolarli e le loro definizioni. Ho cercato attraverso la rete e l'ho trovato un po 'confuso.


2
1 Si è confuso perché (a) infatti questi tipi di residui sono diversi, ma (b) le varie autorità non sono d'accordo su quello che chiamarli! Ad esempio, la Rterminologia è l'opposto di Montgomery, Peck e Vining (un popolare libro di testo di regressione che esiste da 35 anni). Quindi fai attenzione e assicurati di studiare la Rdocumentazione e, se necessario, il suo codice sorgente piuttosto che fare affidamento su ciò che pensi significhi la terminologia.
whuber

Risposte:


11

No, i residui studentizzati e i residui standardizzati sono concetti diversi (ma correlati).

R infatti fornisce funzioni integrate rstandard()e rstudent()come parte di misure di influenza . Lo stesso pacchetto integrato offre molte funzioni simili per la leva, la distanza di Cook, ecc. rstudent()È essenzialmente lo stesso MASS::studres(), che puoi verificare tu stesso in questo modo:

> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE

I residui standardizzati sono un modo per stimare l'errore per un particolare punto dati che tiene conto della leva / influenza del punto. Questi sono talvolta chiamati "residui internamente studentizzati".

ri=eis(ei)=eiMSE(1hii)

La motivazione dietro i residui standardizzati è che anche se il nostro modello ha assunto l'omoscedasticità con un termine di errore iid con varianza fissa , la distribuzione, i residui non possono essere presi perché la somma dei residui è sempre esattamente zero.ϵiN(0,σ2)ei

I residui studentizzati per un dato punto dati sono calcolati da un modello adatto a ogni altro punto dati tranne quello in questione. Questi sono variamente chiamati "residui esternalizzati", "residui cancellati" o "residui con tacche".

Sembra complicato dal punto di vista computazionale ( sembra che dovremmo adattare un nuovo modello per ogni punto) ma in realtà c'è un modo per calcolarlo dal solo modello originale senza effettuare il refitting. Se il residuo standardizzato è , il residuo studentizzato è:riti

ti=ri(nk2nk1ri2)1/2,

La motivazione alla base dei residui studentizzati deriva dal loro uso in test anomali. Se sospettiamo che un punto sia un valore anomalo, per definizione non è stato generato dal modello assunto. Pertanto sarebbe un errore - una violazione delle ipotesi - includere quel valore anomalo nell'adattamento del modello. I residui studentizzati sono ampiamente utilizzati nella rilevazione di valori anomali pratici.

I residui studentizzati hanno anche la proprietà desiderabile che per ciascun punto dati, la distribuzione della distribuzione t della volontà residua da parte dello studente, presupponendo che siano state soddisfatte le ipotesi di normalità del modello di regressione originale. (I residui standardizzati non hanno una distribuzione così piacevole.)

Infine, per rispondere a qualsiasi preoccupazione che la libreria R possa seguire una nomenclatura diversa da quella precedente, la documentazione R afferma esplicitamente che usano "standardizzato" e "studentizzato" nello stesso identico senso sopra descritto.

Funziona rstandarde rstudentfornisce rispettivamente i residui standardizzati e studentizzati. (Questi ri-normalizzare i residui abbiano varianza unitaria, utilizzando una complessiva e leave-one-out di misura della variazione dell'errore rispettivamente.)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.