Qual è la differenza tra standardizzazione e studentizzazione?


21

Nella varianza della standardizzazione è noto mentre nella studentizzazione non è noto e quindi stimato? Grazie.


2
Potresti voler chiarire il contesto della tua domanda. Che tipo di standardizzazione, che tipo di studentizzazione? A cosa servono questi valori?
russellpierce,

3
Se stai chiedendo dei residui , la terminologia non è (ahem) standardizzata . Autori diversi usano nomi diversi per la stessa cosa e occasionalmente - e purtroppo in modo più confuso, lo stesso nome per cose diverse. Esistono quelli che chiamo (i) residui in scala ( , chiamati residui standardizzati da alcuni autori); (ii) studentizzati internamente residui (chiamato standardizzato da alcuni autori / pacchetti, studentizzati da altri); (iii) studentizzati esternamente / studentizzati residui(y-y^io)/S
Glen_b -Reinstate Monica

Risposte:


20

Un breve riassunto. Dato un modello , dove è , e , dove è la "matrice del cappello". I residui sono La varianza della popolazione è sconosciuta e può essere stimata da , l'errore quadratico medio.X n × p β = ( X ' X ) - 1 x ' y y = X β = X ( X ' X ) - 1 x ' y = H y H = X ( X ' X ) - 1 X ' e = y -y=Xβ+εXn×pβ^=(X'X)-1X'yy^=Xβ^=X(X'X)-1X'y=HyH=X(X'X)-1X'σ2MSE

e=y-y^=y-Hy=(io-H)y
σ2MSE

I residui semistudentizzati sono definiti come ma, poiché la varianza dei residui dipende sia da che da , la loro varianza stimata è: dove è l' elemento diagonale della matrice del cappello. σ2XV(ei)=MSE(1-hii)hiii

eio*=eioMSE
σ2X
V^(eio)=MSE(1-hioio)
hioioio

I residui standardizzati , detti anche residui internazionalizzati , sono:

rio=eioMSE(1-hioio)

Tuttavia, i singoli e non sono indipendenti, quindi non può avere una distribuzione . La procedura è quindi di eliminare la esima osservazione, misura la funzione di regressione ai rimanenti osservazioni, e ottenere nuove s' che possono essere indicate con . La differenza: si chiama residuo eliminato . Un'espressione equivalente che non richiede un nuovo è: indica il nuovo e con e M S E r i t i n - 1 y y i ( i ) D i = y i - y i ( i ) d i = e ieioMSEriotion-1y^y^io(io)

dio=yio-y^io(io)
XMSEX(i)MSE(i)iti=di
dio=eio1-hioio
XMSEX(io)MSE(io) , dal momento che non dipendono dal ° di osservazione, otteniamo: I sono chiamati residui studentizzati (cancellati) , o esternamente residui studentizzati .io
tio=dioMSE(io)1-hioio=eioMSE(io)(1-hioio)~tn-p-1
tio

Vedi Kutner et al., Modelli statistici lineari applicati , Capitolo 10.

Modifica: devo dire che la risposta di rpierce è perfetta. Pensavo che il PO riguardasse i residui standardizzati e studentizzati (e la divisione per deviazione standard della popolazione per ottenere i residui standardizzati mi sembrava strano, ovviamente), ma mi sbagliavo. Spero che la mia risposta possa aiutare qualcuno anche se OT.


2
... e questa risposta è corretta nel definire i residui studentizzati da un'equazione di regressione. Non esiste una definizione di un residuo standardizzato corrispondente. Il quadro di regressione non sembra applicarsi alla domanda posta. Ma questo è ancora un contributo prezioso; +1
russellpierce,

2
@rpierce, hai ragione: non appena leggo "studentizzazione" leggo anche "residui", ma erano solo nella mia mente ;-) Scusa. Ho notato la mia svista solo dopo l'ultimo clic.
Sergio,

9

Nelle scienze sociali è in genere ha detto che i punteggi Studentizated utilizza calcolo / di Gosset di Student per la stima del / deviazione standard varianza della popolazione dal campione varianza / deviazione standard ( ). Al contrario, si dice che i punteggi standardizzati (un nome, un particolare tipo di statistica, il punteggio Z) utilizzino la deviazione standard della popolazione? ( ).Sσ

Tuttavia, sembra che ci siano alcune differenze terminologiche tra i campi (vedere i commenti su questa risposta). Pertanto, si dovrebbe procedere con cautela nel fare queste distinzioni. Inoltre, i punteggi studentizzati vengono raramente chiamati tali e si vedono in genere valori "studentizzati" nel contesto della regressione. @Sergio fornisce dettagli su quei tipi di residui cancellati studentizzati nella sua risposta.


2
Wikipedia aggiunge: "Il termine è anche usato per la standardizzazione di una statistica di livello superiore da parte di un'altra statistica dello stesso grado: ad esempio, una stima del terzo momento centrale sarebbe standardizzata dividendo per il cubo della deviazione standard del campione. "
Nick Stauner,

2
Penso che sarebbe più sicuro dire che la studentizzazione è la forma di standardizzazione disponibile se la varianza della popolazione non è nota. Ciò assume la forma di un punto di distinzione tecnico e terminologico piuttosto che una dichiarazione fuorviante sul termine più generale e ampiamente utilizzato.
Nick Stauner,

2
σ

2
@Nick Sembra una buona risoluzione, dato che varie autorità usano la "standardizzazione" in senso lato ma nessuna (AFAIK) usa mai "studentize" in un senso così ampio.
whuber

2
@rpierce Il secondo libro (Freedman, Pisani e Purves) è in circolazione da circa 40 anni, attraverso cinque edizioni (in gran parte invariate) e ha iniziato la sua vita come testo per il corso introduttivo di UC Berkeley. Copre quasi tutti i campi immaginabili, non solo la salute pubblica. D'altra parte, uno dei suoi punti di forza è quello di evitare di enfatizzare piccole, insignificanti o eccessivamente tecniche distinzioni, quindi sebbene sia una buona guida alle statistiche in generale, non si può fare affidamento per risolvere le questioni arcane.
whuber

3

Sono in ritardo nel rispondere a questa domanda !! Ma non riuscivo a trovare la risposta in un linguaggio molto semplice, così umile tentativo di rispondere a questa.

Perché facciamo la standardizzazione? Immagina di avere due modelli: uno prevede la follia dalla quantità di tempo speso nello studio delle statistiche mentre altri predice il log (follia) con la quantità di tempo nelle statistiche.

sarebbe difficile capire che i residui sono entrambi in unità diverse. Quindi li standardizziamo (teoria simile al punteggio Z)

Residui standardizzati: - Quando i residui sono divisi per una stima della deviazione standard. In generale se il valore assoluto> 3 è motivo di preoccupazione.

Usiamo questo per indagare sui valori anomali nel modello.

Residuo studentizzato: lo usiamo per studiare la stabilità del modello.

Il processo è semplice. Rimuoviamo i singoli casi di test dal modello e scopriamo il nuovo valore previsto. La differenza tra il nuovo valore e il valore osservato originale può essere standardizzata dividendo l'errore standard. questo valore è Residuo studentizzato

Per maggiori informazioni sulla scoperta di statistiche usando R - http://www.statisticshell.com/html/dsur.html


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.