No, i residui studentizzati e i residui standardizzati sono concetti diversi (ma correlati).
R infatti fornisce funzioni integrate rstandard()
e rstudent()
come parte di misure di influenza . Lo stesso pacchetto integrato offre molte funzioni simili per la leva, la distanza di Cook, ecc. rstudent()
È essenzialmente lo stesso MASS::studres()
, che puoi verificare tu stesso in questo modo:
> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE
I residui standardizzati sono un modo per stimare l'errore per un particolare punto dati che tiene conto della leva / influenza del punto. Questi sono talvolta chiamati "residui internamente studentizzati".
ri=eis(ei)=eiMSE(1−hii)−−−−−−−−−−−√
La motivazione dietro i residui standardizzati è che anche se il nostro modello ha assunto l'omoscedasticità con un termine di errore iid con varianza fissa , la distribuzione, i residui non possono essere presi perché la somma dei residui è sempre esattamente zero.ϵi∼N(0,σ2)ei
I residui studentizzati per un dato punto dati sono calcolati da un modello adatto a ogni altro punto dati tranne quello in questione. Questi sono variamente chiamati "residui esternalizzati", "residui cancellati" o "residui con tacche".
Sembra complicato dal punto di vista computazionale ( sembra che dovremmo adattare un nuovo modello per ogni punto) ma in realtà c'è un modo per calcolarlo dal solo modello originale senza effettuare il refitting. Se il residuo standardizzato è , il residuo studentizzato è:riti
ti=ri(n−k−2n−k−1−r2i)1/2,
La motivazione alla base dei residui studentizzati deriva dal loro uso in test anomali. Se sospettiamo che un punto sia un valore anomalo, per definizione non è stato generato dal modello assunto. Pertanto sarebbe un errore - una violazione delle ipotesi - includere quel valore anomalo nell'adattamento del modello. I residui studentizzati sono ampiamente utilizzati nella rilevazione di valori anomali pratici.
I residui studentizzati hanno anche la proprietà desiderabile che per ciascun punto dati, la distribuzione della distribuzione t della volontà residua da parte dello studente, presupponendo che siano state soddisfatte le ipotesi di normalità del modello di regressione originale. (I residui standardizzati non hanno una distribuzione così piacevole.)
Infine, per rispondere a qualsiasi preoccupazione che la libreria R possa seguire una nomenclatura diversa da quella precedente, la documentazione R afferma esplicitamente che usano "standardizzato" e "studentizzato" nello stesso identico senso sopra descritto.
Funziona rstandard
e rstudent
fornisce rispettivamente i residui standardizzati e studentizzati. (Questi ri-normalizzare i residui abbiano varianza unitaria, utilizzando una complessiva e leave-one-out di misura della variazione dell'errore rispettivamente.)
R
terminologia è l'opposto di Montgomery, Peck e Vining (un popolare libro di testo di regressione che esiste da 35 anni). Quindi fai attenzione e assicurati di studiare laR
documentazione e, se necessario, il suo codice sorgente piuttosto che fare affidamento su ciò che pensi significhi la terminologia.