relazione tra


10

Una domanda basilare riguardante la delle regressioni OLSR2

  1. eseguiamo la regressione OLS y ~ x1, abbiamo un , diciamo 0.3R2
  2. eseguiamo la regressione OLS y ~ x2, abbiamo un'altra , diciamo 0.4R2
  3. ora eseguiamo una regressione y ~ x1 + x2, quale valore può essere R al quadrato di questa regressione?

Penso che sia chiaro che per la regressione multipla non dovrebbe essere inferiore a 0,4, ma è possibile che sia maggiore di 0,7?R2


2
Suggerimento: potrebbe arrivare fino a 1,0. Perché? (Pensa geometricamente. O, in particolare, riguardo al cerchio unitario.)
Cardinale

Risposte:


4

Il secondo regressore può semplicemente compensare ciò che il primo non è riuscito a spiegare nella variabile dipendente. Ecco un esempio numerico:

Generare x1come regressore normale standard, dimensione del campione 20. Senza perdita di generalità, prendere , dove u i è N ( 0 , 1 ) , anche. Ora, prendi il secondo regressore semplicemente come la differenza tra la variabile dipendente e il primo regressore.yi=0.5x1i+uiuiN(0,1)x2

n <- 20 
x1 <- rnorm(n)

y <- .5*x1 + rnorm(n)

x2 <- y - x1
summary(lm(y~x1))$r.squared
summary(lm(y~x2))$r.squared
summary(lm(y~x1+x2))$r.squared

Grazie! Ho avuto una comprensione sbagliata di r al quadrato. Ho pensato che se x1 + x2 = ypoi non summary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squareddovesse essere inferiore a 1. ma chiaramente mi sbaglio ..
Olivier Ma

3

R2

C'è un concetto che è critico in questo senso e che è la correlazione tra i predittori. Se la correlazione è grande, la nuova variabile non solo porterà nulla al modello ma complicherà anche l'inferenza per le variabili esistenti, poiché le stime diventeranno imprecise (multicollinearità). Questo è il motivo per cui preferiremmo idealmente che la nuova variabile fosse ortogonale alle altre. Ci sono poche possibilità che ciò avvenga negli studi osservazionali, ma può essere realizzato in contesti controllati, ad esempio quando si sta costruendo il proprio esperimento.

R2

Quindi, come sottolineato da @cardinal nei commenti, il tuo nuovo coefficiente di determinazione potrebbe essere alto come 1. Potrebbe anche essere basso come 0,400001. Non c'è modo di dirlo senza ulteriori informazioni.


@ John, ti dispiacerebbe spiegare ulteriormente perché deve essere STRETTAMENTE più grande di 0,4? L'interpretazione geometrica della regressione aiuterebbe qui?
Dnaiel,

@Dnaiel Il coefficiente di determinazione non è in diminuzione rispetto al numero di variabili nel modello.
JohnK,

3

Coefficiente di determinazione nella regressione lineare multipla: nella regressione lineare multipla il coefficiente di determinazione può essere scritto in termini di correlazioni a coppie per le variabili usando la forma quadratica:

R2=ry,xTrx,x1ry,x,

ry,xrx,x

R2=[rY,X1rY,X2]T[1rX1,X2rX1,X21]1[rY,X1rY,X2]=11rX1,X22[rY,X1rY,X2]T[1rX1,X2rX1,X21][rY,X1rY,X2]=11rX1,X22(rY,X12+rY,X222rX1,X2rY,X1rY,X2).

Non hai specificato le direzioni delle correlazioni univariate nella tua domanda, quindi senza perdita di generalità, indicheremo . Sostituendo i valori e rendimenti:Dsgn(rY,X1)sgn(rY,X2){1,+1}rY,X12=0.3rY,X22=0.4

R2=0.720.12DrX1,X21rX1,X22.

È possibile per , poiché è possibile che le informazioni combinate delle due variabili siano superiori alla somma delle sue parti. Questo interessante fenomeno si chiama "miglioramento" (vedi ad esempio Lewis ed Escobar 1986 ).R2>0.7

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.