Qual è l'effetto di avere predittori correlati in un modello di regressione multipla?


45

Ho imparato nella mia classe di modelli lineari che se due predittori sono correlati ed entrambi sono inclusi in un modello, uno sarebbe insignificante. Ad esempio, supponiamo che le dimensioni di una casa e il numero di camere da letto siano correlate. Quando si prevede il costo di una casa utilizzando questi due predittori, uno di essi può essere eliminato perché entrambi forniscono molte delle stesse informazioni. Intuitivamente, questo ha senso, ma ho alcune domande più tecniche:

  1. In che modo questo effetto si manifesta in valori p dei coefficienti di regressione quando si include solo uno o si includono entrambi i predittori nel modello?
  2. In che modo viene influenzata la varianza dei coefficienti di regressione includendo entrambi i predittori nel modello o semplicemente avendo uno?
  3. Come faccio a sapere quale predittore il modello sceglierà per essere meno significativo?
  4. In che modo l'inclusione di uno solo o l'inclusione di entrambi i predittori modifica il valore / la varianza del mio costo previsto?

6
Le risposte ad alcune delle tue domande sono apparse in altri thread, come ad esempio stats.stackexchange.com/a/14528 , che descrive una situazione in cui ognuno di un insieme di predittori solo lievemente correlati sembra essere insignificante anche se appartengono collettivamente nel modello. È un buon insieme di domande ma porta a un gran numero di considerazioni e tecniche; interi libri sono stati scritti su di loro. Vedi, ad esempio, le strategie di modellazione della regressione di Frank Harrell .
whuber

1
Usando le dimensioni della casa e le camere da letto, puoi vedere che l'insignificanza non è garantita se la correlazione è diversa da 1 o -1. Esistono effettivamente case con 2 camere da letto e 3 camere da letto con le stesse dimensioni e i loro costi possono essere (significativamente) diversi, rendendo entrambi i predittori significativi. Tuttavia, le dimensioni in metri quadrati e le dimensioni in piedi quadrati hanno una correlazione = 1 e una di esse può sempre essere eliminata.
Pere

Risposte:


38

L'argomento di cui stai chiedendo è la multicollinearità . Potresti voler leggere alcuni dei thread su CV classificati sotto il tag . Vale la pena dedicare anche la risposta di @ whuber sopra menzionata in precedenza .


L'affermazione che "se due predittori sono correlati ed entrambi sono inclusi in un modello, uno sarà insignificante", non è corretta. Se esiste un effetto reale di una variabile, la probabilità che la variabile sia significativa è una funzione di diverse cose, come l'entità dell'effetto, l'entità della varianza dell'errore, la varianza della variabile stessa, la quantità di dati hai e il numero di altre variabili nel modello. Anche il fatto che le variabili siano correlate è rilevante, ma non ignora questi fatti. Considera la seguente semplice dimostrazione in R:

library(MASS)    # allows you to generate correlated data
set.seed(4314)   # makes this example exactly replicable

# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20,   mu=c(0,0), Sigma=rbind(c(1.00, 0.70),    # r=.70
                                            c(0.70, 1.00)) )
X1 = mvrnorm(n=100,  mu=c(0,0), Sigma=rbind(c(1.00, 0.87),    # r=.87
                                            c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95),    # r=.95
                                            c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20)    # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100)   #  but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000)  #  related to the 1st

# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X0[, 1]       0.6614     0.3612   1.831   0.0847 .     # neither variable
# X0[, 2]       0.4215     0.3217   1.310   0.2075       #  is significant
summary(lm(y1~X1[,1]+X1[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X1[, 1]      0.57987    0.21074   2.752  0.00708 **    # only 1 variable
# X1[, 2]      0.25081    0.19806   1.266  0.20841       #  is significant
summary(lm(y2~X2[,1]+X2[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X2[, 1]      0.60783    0.09841   6.177 9.52e-10 ***   # both variables
# X2[, 2]      0.39632    0.09781   4.052 5.47e-05 ***   #  are significant

N


X1X2R2X11/(1R2)X110X110×X1

Pensare a cosa accadrebbe se si includessero entrambe le variabili correlate rispetto a una sola è simile, ma leggermente più complicato dell'approccio discusso sopra. Questo perché non includere una variabile significa che il modello usa meno gradi di libertà, il che modifica la varianza residua e tutto ciò che viene calcolato da quella (inclusa la varianza dei coefficienti di regressione). Inoltre, se la variabile non inclusa è realmente associata alla risposta, la varianza nella risposta dovuta a quella variabile sarà inclusa nella varianza residua, rendendola più grande di quanto sarebbe altrimenti. Pertanto, diverse cose cambiano simultaneamente (la variabile è correlata o meno con un'altra variabile e la varianza residua) e l'effetto preciso della caduta / inclusa l'altra variabile dipenderà dal modo in cui queste si scambiano.


Armati di una comprensione del VIF, ecco le risposte alle tue domande:

  1. Poiché la varianza della distribuzione campionaria del coefficiente di regressione sarebbe maggiore (di un fattore del VIF) se fosse correlata con altre variabili nel modello, i valori p sarebbero più alti (cioè meno significativi) di quanto altrimenti farebbero .
  2. Le varianze dei coefficienti di regressione sarebbero maggiori, come già discusso.
  3. Y
  4. Il modo in cui i valori previsti e la loro varianza cambierebbe è piuttosto complicato. Dipende da quanto fortemente sono correlate le variabili e dal modo in cui sembrano essere associate alla variabile di risposta nei dati. Per quanto riguarda questo problema, può aiutarti a leggere la mia risposta qui: c'è una differenza tra "controllare per" e "ignorare" altre variabili nella regressione multipla?

5

Questo è più un commento, ma volevo includere un grafico e del codice.

Penso che l'affermazione "se due predittori sono correlati ed entrambi sono inclusi in un modello, uno sarà insignificante" è falso se intendi "solo uno". La significatività statistica binaria non può essere utilizzata per la selezione delle variabili.

Ecco il mio controesempio usando una regressione della percentuale di grasso corporeo sulla circonferenza della coscia, spessore della piega della pelle * e circonferenza del braccio medio:

. webuse bodyfat, clear
(Body Fat)

. reg bodyfat thigh triceps midarm

      Source |       SS       df       MS              Number of obs =      20
-------------+------------------------------           F(  3,    16) =   21.52
       Model |  396.984607     3  132.328202           Prob > F      =  0.0000
    Residual |  98.4049068    16  6.15030667           R-squared     =  0.8014
-------------+------------------------------           Adj R-squared =  0.7641
       Total |  495.389513    19  26.0731323           Root MSE      =    2.48

------------------------------------------------------------------------------
     bodyfat |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       thigh |  -2.856842   2.582015    -1.11   0.285    -8.330468    2.616785
     triceps |   4.334085   3.015511     1.44   0.170    -2.058512    10.72668
      midarm |  -2.186056   1.595499    -1.37   0.190    -5.568362     1.19625
       _cons |   117.0844   99.78238     1.17   0.258    -94.44474    328.6136
------------------------------------------------------------------------------

. corr bodyfat thigh triceps midarm 
(obs=20)

             |  bodyfat    thigh  triceps   midarm
-------------+------------------------------------
     bodyfat |   1.0000
       thigh |   0.8781   1.0000
     triceps |   0.8433   0.9238   1.0000
      midarm |   0.1424   0.0847   0.4578   1.0000


. ellip thigh triceps, coefs plot( (scatteri `=_b[thigh]' `=_b[triceps]'), yline(0, lcolor(gray)) xline(0, lcolor(gray)) legend(off))

inserisci qui la descrizione dell'immagine

Come puoi vedere dalla tabella di regressione, tutto è insignificante, anche se i valori p variano leggermente.

β

Quindi, come facciamo a sapere quali predittori sarebbero meno significativi? La variazione in un regressore può essere classificata in due tipi:

  1. Variazione unica per ciascun regressore
  2. Variazione condivisa dai regressori

R2


* La piega della pelle è la larghezza di una piega della pelle presa sul muscolo tricipite e misurata con un calibro.


Mi piace il tuo esempio, ma a rigor di termini sarebbe un controesempio se l'affermazione nella domanda originale dicesse "se [...], solo uno sarà insignificante", ma non ha la parola "solo".
ameba dice di reintegrare Monica il

@amoeba Questo è un punto eccellente. Modificherò il mio commento.
Dimitriy V. Masterov,

Puoi fornire una formula per illustrare ulteriormente: "Nella stima dei coefficienti di ciascun regressore, verrà utilizzato solo il primo. La variazione comune viene ignorata poiché non può essere allocata"
mac

3

Come notato da @whuber, questa è una domanda complessa. Tuttavia, la prima frase del tuo post è una grande semplificazione. Accade spesso che due (o più) variabili siano correlate ed entrambe correlate alla variabile dipendente. Che siano significativi o meno dipende sia dalla dimensione dell'effetto che dalla dimensione della cellula.

Nel tuo esempio, supponi che, per una determinata dimensione della casa, le persone preferissero meno stanze (almeno a New York, questo non è irragionevole: indicherebbe edifici più vecchi, muri più solidi ecc. E potrebbe essere un indicatore per il quartiere). Quindi entrambi potrebbero essere significativi, in direzioni opposte!

Oppure, supponiamo che le due variabili fossero la dimensione della casa e il quartiere - queste sarebbero sicuramente correlate, case più grandi in quartieri migliori - ma potrebbero comunque essere entrambe significative e sicuramente entrambe correlate al prezzo della casa.

Inoltre, usando solo complessità di maschere "correlate". Le variabili possono essere fortemente correlate senza essere correlate.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.