Come gestire l'alta correlazione tra predittori nella regressione multipla?


18

Ho trovato un riferimento in un articolo che recita come:

Secondo Tabachnick & Fidell (1996) le variabili indipendenti con una correlazione bivariata superiore a .70 non dovrebbero essere incluse nell'analisi di regressione multipla.

Problema: ho usato in un progetto di regressione multipla 3 variabili correlate> .80, VIF a circa .2 - .3, Tolleranza ~ 4- 5. Non posso escludere nessuna di esse (predittori e risultati importanti). Quando ho regredito il risultato sui 2 predittori che erano correlati a 0,80, sono rimasti entrambi significativi, ciascuno ha predetto varianze importanti e queste stesse due variabili hanno la maggior parte e coefficienti di correlazione semipartiale tra tutte e 10 le variabili incluse (5 controlli).

Domanda: il mio modello è valido nonostante le alte correlazioni? Qualsiasi riferimento è stato molto apprezzato!


Grazie per le risposte!

Non ho usato Tabachnick e Fidell come linea guida, ho trovato questo riferimento in un articolo che trattava di elevata collinearità tra i predittori.

Quindi, fondamentalmente, ho troppi pochi casi per il numero di predittori nel modello (molte variabili di controllo categoriche e fittizie codificate - età, possesso, genere, ecc.) - 13 variabili per 72 casi. L'indice di condizione è ~ 29 con tutti i controlli in e ~ 23 senza di essi (5 variabili).

Non posso eliminare alcuna variabile o utilizzare l'analisi fattoriale per combinarle perché teoricamente hanno senso da sole. È troppo tardi per ottenere più dati. Dato che sto conducendo l'analisi in SPSS, forse sarebbe meglio trovare una sintassi per la regressione della cresta (anche se non l'ho mai fatto prima e interpretare i risultati sarebbe nuovo per me).

Se è importante, quando ho condotto una regressione graduale, le stesse 2 variabili altamente correlate sono rimaste i singoli predittori significativi del risultato.

E ancora non capisco se le correlazioni parziali che sono alte per ciascuna di queste variabili contano come una spiegazione del perché le ho mantenute nel modello (nel caso in cui la regressione della cresta non possa essere eseguita).

Diresti che "Diagnostica della regressione: identificazione di dati influenti e fonti di collinearità / David A. Belsley, Edwin Kuh e Roy E. Welsch, 1980" sarebbe utile per comprendere la multicollinearità? O potrebbero essere utili altri riferimenti?


2
Per un esempio esplicito di questa situazione, consultare l'analisi di 10 IV su stats.stackexchange.com/a/14528 . Qui, tutti i IV sono fortemente correlati (circa il 60%). Ma se li escludessi tutti, non ti rimarrebbe nulla! Spesso non è possibile eliminare nessuna di queste variabili. Ciò rende insostenibile la raccomandazione T&F.
whuber

In effetti, ci sono un certo numero di dichiarazioni in Tabachnick e Fidell che considererei almeno un po 'dubbie ... solo perché qualcosa è stampato in un libro non significa che abbia sempre senso.
Glen_b -Restate Monica

Risposte:


20

Il problema chiave non è la correlazione ma la collinearità (vedi le opere di Belsley, per esempio). Questo è meglio testato usando gli indici di condizione (disponibili in R, SASe probabilmente anche altri programmi. La correlazione non è né una condizione necessaria né sufficiente per la collinearità. Gli indici di condizione superiori a 10 (per Belsley) indicano collinearità moderata, oltre 30 gravi, ma dipende anche su quali variabili sono coinvolte nella collinearità.

Se trovi un'elevata collinearità, significa che le stime dei tuoi parametri sono instabili. Cioè, piccoli cambiamenti (a volte nella quarta cifra significativa) nei dati possono causare grandi cambiamenti nelle stime dei parametri (a volte anche invertire il loro segno). Questa è una brutta cosa

I rimedi sono 1) Ottenere più dati 2) Eliminare una variabile 3) Combinare le variabili (ad es. Con minimi quadrati parziali) e 4) Eseguire la regressione della cresta, che fornisce risultati distorti ma riduce la varianza delle stime.


Tabachnick e Fidell hanno scritto un bel libro multivariato per le scienze sociali. Non sono statististi ma la loro conoscenza del multivariato è molto buona. Ma penso che possano creare regole empiriche per semplificare e potrebbero perdere sottigliezze statistiche. Quindi farei più affidamento su ciò che dice Peter nelle sue risposte che nel loro articolo.
Michael R. Chernick,

Grazie @MichaelChernick. In realtà ho scritto la mia tesi sulla diagnostica della collinearità per la regressione multipla.
Peter Flom - Ripristina Monica

Presumo che tu sia vecchio come me e quindi il tuo lavoro è venuto dopo quello di Belsley, Kuh, Welsch e Cook. So che il lavoro di Cook riguardava principalmente altri problemi diagnostici (leva e non normalità), ma ha fatto qualcosa sulla multicollinearità? Naturalmente il concetto di regressione della cresta risale anche prima del mio tempo
Michael R. Chernick,

1
@Peter Flom: Perché la correlazione non è né una condizione necessaria né sufficiente per la collinearità? Ti riferisci alla correlazione non lineare?
Giuliano,

5
Non è necessario perché, se esiste un gran numero di variabili, tutte le coppie possono essere solo leggermente correlate ma la somma delle stesse è perfettamente lineare. Non è sufficiente perché ci sono casi in cui una correlazione abbastanza elevata non produce fastidiosa collinearità per indici di condizione
Peter Flom - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.