Come comprendere i residui standardizzati nell'analisi di regressione?


9

Secondo l' analisi di regressione per esempio , il residuo è la differenza tra la risposta e il valore previsto, quindi si dice che ogni residuo ha una varianza diversa, quindi dobbiamo considerare i residui standardizzati.

Ma la varianza è per un gruppo di valori, come può un singolo valore avere varianza?


2
Sarebbe utile citare direttamente il libro di testo o (se è disponibile online) per fornire un link ad esso. Molto può perdersi se anche una sola parola viene disordinata o fuori contesto. (Ad esempio, i residui sono generalmente definiti come la differenza tra previsione e risposta, non viceversa.)
whuber

Le singole variabili casuali hanno varianze. I residui sono variabili casuali - sono funzioni dei dati. Pertanto, i singoli residui (standardizzati o meno) presentano variazioni.
ospite

#whuber Il libro di testo è "Regression.Analysis.by.Example", pagina 89. Discuteva tipi di residui. il residuo ordinario è la previsione-risposta. @guest "Le singole variabili casuali hanno varianze", questo è ciò che non capisco, le variabili sono una proprietà per un campione, vero? perché il valore singolo in un campione (come un residuo) presenta una varianza?
ccshao,

Il libro ha un autore ...? Questo di solito rende più facile da trovare. Penso che tu stia confondendo la varianza del campione e la varianza della popolazione. Il residuo non è noto prima dell'esecuzione dell'esperimento. La risposta è casuale, così come il residuo, poiché è una funzione della risposta. Quando parliamo della varianza del residuo, parliamo della varianza della variabile casuale sottostante.
Martedì

scusate per l'inconveniente, gli autori sono SAMPRIT CHATTEFUEE e ALI S. HADI, Regressione Analysis by Example, quarta edizione.
ccshao,

Risposte:


9

Direi che un singolo numero (come un residuo), derivato da un'estrazione casuale da una distribuzione di probabilità, è un valore realizzato , non una variabile casuale . Allo stesso modo, direi che l'insieme di residui, calcolato dai tuoi dati e dal tuo modello in forma usando , è un insieme di valori realizzati. Questa serie di numeri può essere liberamente concettualizzata come estrazioni indipendenti da una distribuzione sottostante ~ . (Sfortunatamente, tuttavia, ci sono diverse complessità aggiuntive qui. Ad esempio, in realtà non haie = y -N εN(μ,σ2)NeΣei=0Σxiei=0e=yy^ϵN(μ,σ2)Ninformazioni indipendenti, poiché i residui, , devono soddisfare due condizioni: e ) eei=0xiei=0

Ora, dato un certo numero di numeri, siano essi residui o altro, è certamente vero che hanno una varianza, , ma questo non è interessante. Ciò a cui teniamo è poter dire qualcosa sul processo di generazione dei dati (ad esempio, per stimare la varianza della distribuzione della popolazione). Usando la formula precedente, potremmo dare un'approssimazione sostituendo la con i gradi di libertà residui, ma questa potrebbe non essere una buona approssimazione. Questo è un argomento che può diventare molto complicato molto velocemente, ma un paio di possibili ragioni potrebbero essere l' eteroscedasticità (cioè che la varianza della popolazione differisce a diversi livelli di ) e la presenza di valori anomaliN(eie¯)2/NNx(vale a dire, che un dato residuo è tratto interamente da una popolazione diversa). Quasi certamente, in pratica, non sarai in grado di stimare la varianza della popolazione da cui è stato tratto un outlier, ma, in teoria, ha una varianza. Sospetto che qualcosa del genere sia ciò che gli autori avevano in mente, tuttavia, dovrei notare che non ho letto quel libro.

Aggiornamento: Dopo aver riletto la domanda, sospetto che la citazione possa riferirsi al modo in cui il valore di un punto influenza la linea di regressione adattata, e quindi il valore del residuo associato a quel punto. L'idea chiave da cogliere qui è la leva . Discuto questi argomenti nella mia risposta qui: Interpretazione di plot.lm () . x


1
Grazie! La leva finanziaria è la cosa che non capisco prima. Non vi è alcun effetto di regressione per i dati che ha x vicino ad avg (x), quindi una varianza elevata.
ccshao,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.