Quando possiamo parlare di collinearità

16

Nei modelli lineari dobbiamo verificare se esiste una relazione tra le variabili esplicative. Se si correlano troppo, allora c'è collinearità (cioè le variabili si spiegano in parte a vicenda). Attualmente sto solo esaminando la correlazione a coppie tra ciascuna delle variabili esplicative.

Domanda 1: Cosa classifica come troppa correlazione? Ad esempio, una correlazione di Pearson di 0,5 è troppo?

Domanda 2: Possiamo determinare completamente se esiste una collinearità tra due variabili in base al coefficiente di correlazione o dipende da altri fattori?

Domanda 3: Un controllo grafico del grafico a dispersione delle due variabili aggiunge qualcosa a ciò che indica il coefficiente di correlazione?

correlation linear-model multicollinearity

— Stefan
fonte

2

La collinearità (singolarità) tra 3+ variabili non si riduce solo ad alte correlazioni a coppie. Cerca nel sito le domande taggate "multicollinearità". Inoltre, ti consiglio di leggere questa mia risposta: stats.stackexchange.com/a/70910/3277 .

— ttnphns,

15

Non esiste una "linea luminosa" tra non troppa collinearità e troppa collinearità (tranne nel senso banale che è decisamente troppo). Gli analisti in genere non considererebbero come troppa collinearità tra due variabili. Una regola empirica per quanto riguarda la multicollinearità è che hai troppo quando il VIF è maggiore di 10 (questo probabilmente perché abbiamo 10 dita, quindi prendi tali regole empiriche per quello che valgono). L'implicazione sarebbe che hai troppa collinearità tra due variabili se . Puoi leggere di più sul VIF e sulla multicollinearità nella mia risposta qui: $r = 1.0$ $r = .50$ $r \ge .95$ Qual è l'effetto di avere predittori correlati in un modello di regressione multipla?
$r \ge .95$
È sempre intelligente esaminare i tuoi dati e non semplicemente riepiloghi / risultati dei test numerici. Il riferimento canonico qui è il quartetto di Anscomb .

— gung - Ripristina Monica
fonte

3

La mia opinione sulle tre domande è

Domanda 1 Cosa classifica come troppa correlazione? Ad esempio: una correlazione di Pearson di 0,5 è troppo?

Molti autori sostengono che la (multi) collinearità non è un problema. Dai un'occhiata qui e qui per un'opinione piuttosto acida sull'argomento. La linea di fondo è che la multicollinearità non ha alcun impatto sul test di ipotesi se non quello di avere una dimensione del campione (efficace) inferiore. Sarà difficile per te interpretare i coefficienti di regressione se fai una regressione, per esempio, ma non violi alcun presupposto di base se scegli di farlo.

Domanda 2 Possiamo determinare completamente se esiste collinearità tra due variabili in base al coefficiente di correlazione o dipende da altri fattori?

Penso che ci siano diversi modi per misurare la correlazione tra due variabili, dal calcolo del coefficiente di correlazione di Pearson (se si assume la linearità, e apparentemente lo si è fatto), al rango di Spearman , alla correlazione della distanza e persino alla PCA nel proprio set di dati. Ma vorrei lasciare la risposta a questa domanda a persone meglio informate di me.

Domanda 3 Un controllo grafico del grafico a dispersione delle due variabili aggiunge qualcosa a ciò che indica il coefficiente di correlazione?

IMO, la risposta è no.

— pedrofigueira
fonte

3

IMHO, la risposta a (3) è al contrario un sì molto forte: mentre il coefficiente di correlazione può dare solo una singola valutazione numerica della linearità di una relazione, una rapida occhiata al diagramma a dispersione fornirà moltissime informazioni aggiuntive a riguardo relazione, compresi comportamenti che non erano previsti prima. Tuttavia, il vero interesse per questa serie di domande risiede nel modo in cui valutare le relazioni tra tre o più variabili (nonostante come (3) sia stato effettivamente formulato), e in quel caso anche una matrice scatterplot non rivela tutto, come osserva @ttnphns.

— whuber

1

Per quanto riguarda (1), ho letto il tuo riferimento (al blog di Dave Gile) in modo diverso: sostiene che i test formali sulla multicollinearità sono sbagliati. Non lo vedo affermare che la multicollinearità non è un problema.

— whuber

La mia comprensione della risposta di Dave Gile è che l'unico modo in cui la multicollinearità influisce sui risultati sarà attraverso una dimensione del campione equivalente inferiore. Quindi, proprio come non ha senso testare campioni di piccole dimensioni, non ha senso testare l'impatto della multicollinearità. Ma sarei felice di sentire la tua opinione al riguardo, forse l'ho frainteso.

— pedrofigueira,

Bene, la necessità di una dimensione del campione più grande può avere un impatto enorme per la maggior parte degli studi! Un effetto più sottile della quasi collinearità riguarda la costruzione del modello e la selezione delle variabili, come discusso ( tra l'altro ) in thread come stats.stackexchange.com/questions/50537 e stats.stackexchange.com/a/28476/919 . Ma assicuriamoci di parlare delle stesse cose: Giles sta discutendo test formali di multicollinearità, come se le variabili indipendenti fossero campionate casualmente. Qui la preoccupazione sembra focalizzata sull'uso della diagnostica multicollinearità per comprendere le capacità e i limiti di un modello.

— whuber

1

Un modo comune per valutare la collinearità è con i fattori di inflazione di varianza (VIF). Ciò può essere ottenuto in R usando la funzione 'vif' all'interno del pacchetto 'car'. Ciò ha il vantaggio di guardare solo le correlazioni tra due variabili, poiché valuta contemporaneamente la correlazione tra una variabile e il resto delle variabili nel modello. Ti dà quindi un singolo punteggio per ciascun predittore nel modello.

Come detto sopra, non esiste un cutoff duro e veloce, ma i punteggi VIF sono spesso considerati problematici una volta tra 5-10. Per questo utilizzo le regole pratiche specifiche del campo. Inoltre, non c'è nulla di necessariamente non valido nell'uso dei predittori correlati (purché non siano perfettamente correlati). Avrai solo bisogno di più dati per separare gli effetti. Quando non si dispone di dati sufficienti, ci saranno grandi incertezze nelle stime dei parametri dei predittori correlati e queste stime saranno sensibili al ricampionamento.

Per rispondere alle tue domande in particolare:

Non utilizzare coefficienti di correlazione. usa i VIF del modello con tutti i predittori e senza interazioni. I VIF di 5-10 indicano troppa correlazione, il tuo cutoff specifico dipende da cosa devi fare con il modello.
Dipende dagli altri predittori nel modello, motivo per cui è utile utilizzare i VIF.
No! Le statistiche quantificheranno meglio ciò che stai osservando con il diagramma a dispersione. A meno che non vi sia una super violazione delle ipotesi di OLS quando si regrediscono i predittori l'uno contro l'altro.

— colin
fonte