Perché la somma dei residui quadrati non aumenta quando si aggiunge una variabile esplicativa?


9

Nel mio libro di testo econometrico (Introduzione all'Ecetretrica) riguardante OLS, l'autore scrive: "SSR deve cadere quando viene aggiunta un'altra variabile esplicativa". Perchè


1
In sostanza perché se non c'è alcuna relazione lineare con la variabile successiva qualunque (0 correlazione parziale del campione), l'SSR rimarrà lo stesso. Se esiste qualche relazione, è possibile utilizzare la variabile successiva per ridurre SSR.
Glen_b -Restate Monica

3
L'affermazione è corretta nello spirito ma non del tutto vera: SSR rimarrà lo stesso (e non cadrà) quando si aggiunge una variabile che è una combinazione lineare delle variabili esistenti. Dopotutto, ignorando la nuova variabile è possibile ottenere lo stesso valore minimo di SSR ottenuto con la vecchia variabile, quindi l'aggiunta di una nuova variabile non può mai peggiorare le cose.
whuber

Ho risposto a una domanda simile qui: stats.stackexchange.com/questions/306267/… . Potresti trovarlo utile.
Josh,

Risposte:


18

Supponendo che tu abbia un modello di regressione lineare, per una semplice notazione considera prima una e poi due covariabili. Questo generalizza a due serie di covariabili. Il primo modello è il secondo modello è Questo viene risolto minimizzando la somma dei residui quadrati, per il modello uno vogliamo minimizzare e per il modello due che vuoi minimizza . Supponiamo che tu abbia trovato gli stimatori corretti per il modello 1, quindi puoi ottenere gli stessi quadrati di somma residua esatti nel modello due scegliendo gli stessi valori per

I:yi=β0+β1x1i+ϵi
II:yi=β0+β1x1i+β2x2i+ϵi
SSR1=i(yiβ0β1x1i)2β 0 , β 1 β 2 = 0 β 2SSR2=i(yiβ0β1x1iβ2x2i)2β0,β1 e lasciando . Ora puoi trovare, eventualmente, un residuo di quadrati di somma inferiore cercando un valore migliore per .β2=0β2

Per riassumere, i modelli sono nidificati, nel senso che tutto ciò che possiamo modellare con il modello 1 può essere abbinato al modello due, il modello due è più generale del modello 1. Quindi, nell'ottimizzazione, abbiamo una maggiore libertà con il modello due, quindi possiamo trova sempre una soluzione migliore.

Questo non ha davvero nulla a che fare con le statistiche ma è un fatto generale sull'ottimizzazione.


1
Non ho pensato in questo modo, davvero utile!
Eric Xu,

1

SSR è una misura della discrepanza tra i dati e un modello di stima.

Se hai la possibilità di prendere in considerazione un'altra variabile, quindi se questa variabile contiene più informazioni, l'adattamento sarebbe naturalmente più stretto, il che significa un SSR inferiore.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.