Come è possibile ottenere un buon modello di regressione lineare quando non esiste una correlazione sostanziale tra output e predittori?


17

Ho addestrato un modello di regressione lineare, usando una serie di variabili / caratteristiche. E il modello ha una buona prestazione. Tuttavia, mi sono reso conto che non esiste una variabile con una buona correlazione con la variabile prevista. Come è possibile?


3
Queste sono ottime risposte, ma alla domanda mancano molti dettagli che le risposte stanno cercando di riempire. La più grande domanda nella mia mente è cosa intendi per "buona correlazione".
Acqua calda sanitaria

Risposte:


35

Una coppia di variabili può mostrare un'elevata correlazione parziale (la correlazione tiene conto dell'impatto di altre variabili) ma una correlazione bassa - o addirittura zero - marginale (correlazione a coppie).

Il che significa che la correlazione a coppie tra una risposta, y e alcuni predittori, x può essere di scarso valore nell'identificazione di variabili adatte con valore "lineare" (predittivo) tra una raccolta di altre variabili.

Considera i seguenti dati:

   y  x
1  6  6
2 12 12
3 18 18
4 24 24
5  1 42
6  7 48
7 13 54
8 19 60

La correlazione tra y e x è . Se traccio la linea dei minimi quadrati, è perfettamente orizzontale e l' R 2 sarà naturalmente 0 .0R20

Ma quando aggiungi una nuova variabile g, che indica da quale dei due gruppi provenivano le osservazioni, x diventa estremamente informativo:

   y  x g
1  6  6 0
2 12 12 0
3 18 18 0
4 24 24 0
5  1 42 1
6  7 48 1
7 13 54 1
8 19 60 1

L' di un modello di regressione lineare con entrambe le variabili x e g sarà 1.R2

Grafico di y vs x che mostra una mancanza di relazione lineare a coppie ma con colore che indica il gruppo;  all'interno di ciascun gruppo la relazione è perfetta

È possibile che questo tipo di cose accada con ognuna delle variabili nel modello - che tutte hanno una piccola correlazione a coppie con la risposta, eppure il modello con tutte le cose lì dentro è molto bravo a prevedere la risposta.

Letture addizionali:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox


Questo comportamento può verificarsi in un vero modello lineare? Qui, la relazione tra colore (g = 0/1) e risposta y sembra non lineare. Tuttavia, ciò che può accadere è che l' del modello senza g può essere (arbitrariamente?) Inferiore all'R 2 del modello con g . R2gR2g
Vimal,

Accidenti, avrei dovuto guardare da vicino il modello :) . Gratta quella domanda! y=x41g
Vimal,

Quello era davvero il modello con cui la risposta fu creata; ma puoi immediatamente vedere che è lineare semplicemente immaginando di sollevare i punti blu fuori da un'unità arbitraria (verso di te dalla superficie dello schermo, lungo una nuova direzione dell'asse "g") e vedere un piano che si adatta attraverso i sei punti.
Glen_b -Restate Monica

1
Nella regressione, le variabili X sono condizionate e possono spesso essere controllate, quindi "l'indipendenza" non è generalmente ciò che si cerca. Al di fuori di esperimenti progettati, i predittori indipendenti non sono quasi mai visti e in ogni caso, e se hai progettato esperimenti, i predittori non sono variabili casuali, quindi "indipendenza" (in senso statistico) non è ciò che avresti guardato - piuttosto qualcosa come l'ortogonalità reciproca, presumibilmente. ... ctd
Glen_b -Reinstate Monica,

1
ctd ... Se davvero intendi l'indipendenza statistica (reciproca / p-variata) di tutti i predittori, allora non otterrai esattamente coefficienti zero sulle regressioni univariate in quel modo, ma non avrai nemmeno bisogno di una separazione completa come nell'esempio sopra .
Glen_b -Restate Monica

2

Suppongo che tu stia addestrando un modello di regressione multipla, in cui hai più variabili indipendenti , X 2 , ..., regredite su Y. La semplice risposta qui è una correlazione a coppie è come eseguire un modello di regressione non specificato. Come tale, hai omesso variabili importanti.X1X2

Più specificamente, quando affermi "non esiste una variabile con una buona correlazione con la variabile prevista", sembra che tu stia verificando la correlazione a coppie tra ogni variabile indipendente con la variabile dipendente, Y. Ciò è possibile quando introduce importanti , nuove informazioni e aiuta a chiarire il confondimento tra X 1 e Y. Con quel confondimento, tuttavia, potremmo non vedere una correlazione lineare tra X 1 e Y. Potresti anche voler verificare la relazione tra correlazione parziale ρ x 1 , y | x 2 e regressione multipla y = β 1X2X1X1ρx1,y|x2 . La regressione multipla ha una relazione più stretta con correlazione parziale rispetto alla correlazione a coppie, ρ x 1 , y .y=β1X1+β2X2+ϵρx1,y


0

XXXXXX=x1,x2...oipicicioi=0cixicioi=0cixiX1X2EX1X2EX1X1X2X2EX1X2YY

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.