C'è una spiegazione intuitiva del perché la multicollinearità è un problema nella regressione lineare?


85

Il wiki discute i problemi che sorgono quando la multicollinearità è un problema di regressione lineare. Il problema di base è che la multicollinearità si traduce in stime di parametri instabili che rendono molto difficile valutare l'effetto di variabili indipendenti su variabili dipendenti.

Comprendo le ragioni tecniche alla base dei problemi (potrebbe non essere in grado di invertire , mal condizionato ecc.) Ma sto cercando una spiegazione più intuitiva (forse geometrica?) Per questo problema.XXXX

Esiste una spiegazione geometrica o forse un'altra forma di spiegazione facilmente comprensibile sul perché la multicollinearità è problematica nel contesto della regressione lineare?


4
Davvero un'ottima domanda. Il modo migliore per capire qualcosa è da più direzioni di spiegazione.
Tal Galili,

1
Vedi anche domande correlate e spiegazioni visive stats.stackexchange.com/q/70899/3277
ttnphns

Risposte:


89

Considera il caso più semplice in cui è regredito rispetto a e e in cui e sono fortemente correlati. Allora l'effetto di su è difficile distinguere dall'effetto di su poiché qualsiasi aumento tende ad essere associato ad un aumento .YXZXZXYZYXZ

Un altro modo di vedere questo è considerare l'equazione. Se scriviamo , il coefficiente è l'aumento di per ogni aumento di unità in mantenendo costanteMa in pratica, è spesso impossibile mantenere costante e la correlazione positiva tra e significa che un aumento unitario di è di solito accompagnato da un certo aumento di allo stesso tempo.Y=b0+b1X+b2Z+eb1YXZZXZXZ

Una spiegazione simile ma più complicata vale per altre forme di multicollinearità.


20
+1 Il caso estremamente patologico in cui evidenzia ulteriormente. e sarebbe indistinguibile. Y = b 0 + b 1 X + b 2 Z + e Y = b 0 + ( b 1 + b 2 ) X + 0 Z + eX=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
vqv

1
+1 Mi piace questa risposta perché una delle domande di aiuto più comuni è perché quindi e . L'inferenza deve tenere conto di input realistici. b 2 < 0b1>0b2<0
muratoa,

29

Una volta stavo mangiando sushi e ho pensato che potesse essere una buona dimostrazione intuitiva di problemi mal condizionati. Supponiamo di voler mostrare a qualcuno un aereo usando due bastoncini che toccano le loro basi.

Probabilmente avresti tenuto i bastoncini ortogonali tra loro. L'effetto di qualsiasi tipo di agitazione delle mani sull'aereo fa oscillare un po 'attorno a ciò che speravi di mostrare alla gente, ma dopo averti osservato per un po', hanno una buona idea di quale piano intendevi dimostrare.

Ma supponiamo che avvicini le estremità dei bastoncini e osservi l'effetto del tremare delle mani. L'aereo che forma si inclinerà molto più selvaggiamente. Il tuo pubblico dovrà guardare più a lungo per avere una buona idea di quale piano stai cercando di dimostrare.


+1 Penso che questo risponda più direttamente alla domanda. Perché sebbene la multicollinearità influenzi l'interpretazione. Perché è un problema imho è la stabilità nella stima.
muratoa,

+1 Per pubblicare questo commento (e solo questo commento nella storia di Stackoverflow) sotto il nome utente Snackrifice.
StackOverx

19

L'approccio geometrico è considerare il minimo proiezione quadrati di sul sottospazio da .XYX

Supponi di avere un modello:

E[Y|X]=β1X1+β2X2

Il nostro spazio di stima è il piano determinato dai vettori e e il problema è trovare coordinate corrispondenti a che descriveranno il vettore , una proiezione dei minimi quadrati di su quel piano.X1X2(β1,β2)Y^Y

Supponiamo ora , cioè sono collineari. Quindi, il sottospazio determinato da e è solo una linea e abbiamo solo un grado di libertà. Quindi non possiamo determinare due valori e come ci è stato chiesto.X1=2X2X1X2β1β2


2
Ho votato molto tempo fa, ma rileggere la tua risposta mi ricorda che mi sono sempre piaciute le risposte piane alle domande complesse di Christensen ( j.mp/atRp9w ).
chl

@chl: figo, sicuramente andrà a dare un'occhiata allora. :)
ars

14

Due persone stanno spingendo un masso su una collina. Vuoi sapere quanto ciascuno di essi sta spingendo. Supponi di vederli spingere insieme per dieci minuti e che il masso si muova di 10 piedi. Il primo ragazzo ha fatto tutto il lavoro e il secondo l'ha falso? O vice versa? O 50-50? Dal momento che entrambe le forze stanno lavorando nello stesso momento, non puoi separare la forza di una delle due separatamente. Tutto quello che puoi dire è che la loro forza combinata è di 1 piede al minuto.

Ora immagina che il primo ragazzo spinga per un minuto lui stesso, poi nove minuti con il secondo ragazzo, e un ultimo minuto è solo il secondo ragazzo che spinge. Ora puoi usare le stime delle forze nel primo e nell'ultimo minuto per capire la forza di ogni persona separatamente. Anche se funzionano ancora in gran parte allo stesso tempo, il fatto che ci sia un po 'di differenza ti consente di ottenere stime della forza per ciascuno.

Se vedessi ogni uomo spingere in modo indipendente per dieci minuti interi, ciò ti darebbe stime più precise delle forze rispetto a se ci fosse una grande sovrapposizione nelle forze.

Lascio come esercizio per il lettore estendere questo caso a un uomo che spinge in salita e l'altro che spinge in discesa (funziona ancora).

La perfetta multicolinearità ti impedisce di stimare le forze separatamente; quasi multicolinearity ti dà errori standard più grandi.


6

Il modo in cui penso a questo è davvero in termini di informazioni. Dire ciascuno dei e ha alcune informazioni su . Più e sono correlati tra loro, più il contenuto informativo su di e è simile o sovrapposto, al punto che per perfettamente correlato e , è davvero lo stesso contenuto informativo. Se ora inseriamo e nello stesso modello (regressione) per spiegare , il modello tenta di "assegnare" le informazioni che (X1X2YX1X2YX1X2X1X2X1X2YX1 , ) contiene circa per ciascuno di e , in modo alquanto arbitrario. Non c'è davvero un buon modo per ripartire questo, dal momento che qualsiasi divisione delle informazioni porta ancora a mantenere le informazioni totali da ( , ) nel modello (per perfettamente correlate , questo è davvero un caso di non identificabilità). Ciò porta a stime individuali instabili per i singoli coefficienti di e , anche se si osservano i valori previsti su molte corse e stime di eX2YX1X2X1X2XX1X2b1X1+b2X2b1b2, questi saranno abbastanza stabili.


4

La mia (molto) intuizione laica per questo è che il modello OLS ha bisogno di un certo livello di "segnale" nella variabile X per poter rilevare che fornisce una "buona" previsione per Y. Se lo stesso "segnale" viene distribuito su molte X (perché sono correlati), quindi nessuna delle X correlate può dare abbastanza di una "prova" (significato statistico) che sia un vero predittore.

Le precedenti (meravigliose) risposte fanno un ottimo lavoro per spiegare perché è così.


3

Supponiamo che due persone abbiano collaborato e realizzato la scoperta scientifica. È facile dire i loro contributi unici (chi ha fatto cosa) quando due sono persone totalmente diverse (uno è teorico e l'altro è bravo nell'esperimento), mentre è difficile distinguere le loro influenze uniche (coefficienti di regressione) quando sono gemelli che agiscono in modo simile.


2

Se due regressori sono perfettamente correlati, i loro coefficienti saranno impossibili da calcolare; è utile considerare perché sarebbero difficili da interpretare se potessimo calcolarli . In realtà, questo spiega perché è difficile interpretare variabili che non sono perfettamente correlate ma che non sono neppure realmente indipendenti.

Supponiamo che la nostra variabile dipendente sia l'offerta giornaliera di pesce a New York e che le nostre variabili indipendenti includano una per sapere se piove in quel giorno e una per la quantità di esche acquistate in quel giorno. Ciò che non ci rendiamo conto quando raccogliamo i nostri dati è che ogni volta che piove, i pescatori non acquistano esche e ogni volta che non lo fanno acquistano una quantità costante di esche. Quindi Bait e Rain sono perfettamente correlati e quando eseguiamo la nostra regressione, non possiamo calcolare i loro coefficienti. In realtà, Bait e Rain non sono probabilmente perfettamente correlati, ma non vorremmo includerli entrambi come regressori senza in qualche modo ripulirli dalla loro endogeneità.


1

Penso che la trappola variabile fittizia offra un'altra utile possibilità per illustrare perché la multicollinearità è un problema. Ricordiamo che si presenta quando nel modello abbiamo una serie costante e completa di manichini. Quindi, la somma dei manichini aggiunge uno, la costante, così multicollinearità.

Ad esempio, un manichino per uomini e uno per donne:

yi=β0+β1Mani+β2Womani+ui

L'interpretazione standard di è la variazione attesa in che deriva dalla modifica di da 0 a 1. Allo stesso modo, è la variazione attesa in che deriva dalla modifica di da 0 a 1. Y M a n i β 2 Y W o m a n iβ1YManiβ2YWomani

Ma cosa dovrebbe rappresentare quindi ...? È , quindi il risultato atteso per le persone che non sono né un uomo né una donna ... è probabilmente sicuro dire che praticamente per tutti i set di dati che incontrerai, non è una domanda utile da porre :-). E ( y i | M a n i = 0 , W o m a n i = 0 )β0E(yi|Mani=0,Womani=0)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.