L'aggiunta di più variabili in una regressione multivariabile modifica i coefficienti delle variabili esistenti?


16

Supponiamo di avere una regressione multivariabile (diverse variabili indipendenti) che consiste di 3 variabili. Ognuna di quelle variabili ha un dato coefficiente. Se decido di introdurre una quarta variabile e rieseguire la regressione, i coefficienti delle 3 variabili originali cambieranno?

Più in generale: in una regressione multivariabile (più variabili indipendenti), il coefficiente di una determinata variabile è influenzato dal coefficiente di un'altra variabile?


1
Modifica la domanda per essere più precisi. Non da multivariablevoi dire più variabili indipendenti ( "regressione multipla") o più variabili dipendenti ( "regressione multivariata" o "MAN (C) OVA")?
ttnphns,

1
Se la risposta fosse no, in primo luogo non sarebbe necessario fare una regressione multivariabile! (potremmo semplicemente fare molti quelli univariabili)
user603

1
Questo è un punto approfondito, @ user603, ma penso che potrebbe esserci ancora un posto per la regressione multipla, in quanto se le altre variabili fossero significativamente correlate alla risposta (anche se non la variabile esplicativa), possono ridurre la varianza residua portando a un miglioramento potenza e precisione.
gung - Ripristina Monica

Risposte:


23

Una stima di parametro in un modello di regressione (ad esempio, ) cambierà se una variabile, , viene aggiunta al modello che è: β^iXj

  1. correlato con la variabile corrispondente di quel parametro, (che era già nel modello) eXi
  2. correlato con la variabile di risposta,Y

Una beta stimata non cambierà quando viene aggiunta una nuova variabile, se una delle precedenti non è correlata. Si noti che se essi siano correlati nella popolazione (vale a dire, , o ) è irrilevante. Ciò che conta è che entrambe le correlazioni del campione siano esattamente . In pratica, questo non sarà mai il caso, a meno che tu non stia lavorando con dati sperimentali in cui le variabili sono state manipolate in modo tale da non essere correlate alla progettazione. ρ(Xi,Xj)=0 ρ(Xj,Y)=00

Nota anche che la quantità che i parametri cambiano potrebbe non essere terribilmente significativa (ciò dipende, almeno in parte, dalla tua teoria). Inoltre, la quantità che possono cambiare è una funzione delle dimensioni delle due correlazioni sopra.

In una nota diversa, non è proprio corretto pensare a questo fenomeno come "il coefficiente di una data variabile [essendo] influenzato dal coefficiente di un'altra variabile". Non sono i beta che si influenzano a vicenda. Questo fenomeno è un risultato naturale dell'algoritmo che il software statistico utilizza per stimare i parametri di pendenza. Immagina una situazione in cui è causato sia da che da , che a loro volta sono correlati tra loro. Se nel modello è presente solo , parte della variazione in dovuta a verrà impropriamente attribuita a . Ciò significa che il valore diYXiXjXiYXjXiXiè di parte; questa è chiamata distorsione da variabile omessa .


Ottimo punto da sottolineare in quest'ultima frase.
Glen_b


@gung so che la tua risposta è vecchia ma ho appena provato questo ideone.com/6CAkSR dove ho creato e sono correlati e non è correlato a . Ma quando ho aggiunto al modello, il parametro di x2 è cambiato sebbene non sia correlato a . hai detto nella tua risposta "correlato con la variabile di risposta, Una beta stimata non cambierà quando viene aggiunta una nuova variabile, se una delle precedenti non è correlata". Ho sbagliato? yx2x1yx1x1yY
floyd

1
Deve essere perfettamente non correlato, non solo non significativamente correlato, @floyd. In tal caso, la versione beta di non avrebbe dovuto essere modificata a meno che non si fosse verificato un errore. s1
gung - Ripristina Monica

@gung grazie mille per la risposta. Conosci un modo per creare dati così perfetti? so che non può succedere nella vita reale
floyd

3

È matematicamente possibile che i coefficienti non cambino, ma è improbabile che non ci sia alcun cambiamento con dati reali, anche se tutte le variabili indipendenti sono indipendenti l'una dall'altra. Ma, in questo caso, i cambiamenti (diversi dall'intercettazione) tenderanno a 0:

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

Nel mondo reale, tuttavia, le variabili indipendenti sono spesso correlate tra loro. In questo caso, l'aggiunta di una quarta variabile all'equazione cambierà gli altri coefficienti, a volte di molto.

Quindi ci sono possibili interazioni .... ma questa è un'altra domanda.


1

In generale, sì, l'aggiunta di una variabile modifica i coefficienti precedenti, quasi sempre.

In effetti, questa è essenzialmente la causa del paradosso di Simpson , in cui i coefficienti possono cambiare, anche invertendo il segno, a causa delle covariate omesse.

Perché ciò non accada, avremmo bisogno che le nuove variabili fossero ortogonali alle precedenti. Ciò accade spesso negli esperimenti progettati, ma è molto improbabile che accada nei dati in cui il modello delle variabili indipendenti non è pianificato.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.