Quali sono i meriti di diversi approcci per rilevare la collinearità?


11

Voglio scoprire se la collinearità è un problema nella mia regressione OLS. Comprendo che i fattori di inflazione della varianza e l'indice di condizione sono due misure comunemente utilizzate, ma trovo difficile trovare qualcosa di preciso sui meriti di ciascun approccio o quali dovrebbero essere i punteggi.

Una fonte importante che indica quale approccio adottare e / o quali punteggi sono appropriati sarebbe molto utile.

Una domanda simile è stata posta a "Esiste un motivo per preferire una misura specifica di multicollinearità?" ma idealmente cerco un riferimento che posso citare.


4
Ricorda che la collinearità è davvero una questione di grado , quindi anche se trovi un testo che fornisce un numero simpatico e citabile, non è qualcosa che dovresti considerare come un valore limite per "nessun problema" vs "abbiamo un problema ".
Silverfish,

4
@Silverfish dà buoni consigli. Belsley, Kuh e Welsch sottolineano anche che la collinearità, anche quando presente, non è necessariamente dannosa: devi determinare se sta effettivamente causando un problema per la tua analisi.
whuber

Risposte:


11

Belsley, Kuh e Welsch sono il testo a cui rivolgersi per questo tipo di domanda. Includono un'ampia discussione sulla diagnostica precedente in una sezione intitolata "Prospettiva storica". Per quanto riguarda VIF scrivono

... Se assumiamo la dati sono stati centrati in scala e di avere unità di lunghezza, la matrice di correlazione è semplicemente . ...XRXX

Stiamo considerando . Gli elementi diagonali di , il , sono spesso chiamati fattori di inflazione della varianza, , e il loro valore diagnostico deriva dalla relazione dove è il coefficiente di correlazione multipla di regredito sulle restanti variabili esplicative. Chiaramente un VIF alto indica un vicino all'unità, e quindi punta alla collinearità. Questa misura è pertanto utile come indicazione generale di collinearità. I suoi punti deboli, come quelli diR1=(XX)1R1riiVIFi

VIFi=11Ri2
Ri2XiRi2R, risiede nella sua incapacità di distinguere tra diverse dipendenze vicine coesistenti e nella mancanza di un confine significativo per distinguere tra valori di VIF che possono essere considerati alti e quelli che possono essere considerati bassi.

Al posto di analizzare (o ), BKW proporre attento, l'esame controllata del Singular Value Decomposition di . Lo motivano dimostrando che il rapporto tra i valori singolari più grandi e quelli più piccoli è il numero di condizione di e mostrano come il numero di condizione fornisca (a volte stretto) limiti alla propagazione degli errori di calcolo nel calcolo delle stime di regressione. Continuano a tentare una scomposizione approssimativa delle varianze delle stime dei parametri in componenti associati ai valori singolari. Il potere di questa decomposizione sta nella sua capacità (in molti casi) di rivelare la naturaRR1XXβ^i della collinearità, piuttosto che semplicemente indicarne la presenza.

Chiunque abbia creato modelli di regressione con centinaia di variabili apprezzerà questa funzione! Una cosa è che il software dice "i tuoi dati sono collineari, non posso procedere" o anche dire "i tuoi dati sono collineari, sto gettando le seguenti variabili". È del tutto molto più utile poter dire "il gruppo di variabili sta causando instabilità nei calcoli: vedi di quali di queste variabili puoi fare a meno o considerare eseguendo un'analisi dei componenti principali per ridurne il numero. "Xi1,,Xik

Alla fine, BKW consiglia di diagnosticare la collinearità mediante

... la seguente doppia condizione:

  1. Un valore singolare giudicato avere un indice di condizione elevato e al quale è associato
  2. Elevate proporzioni di varianza-decomposizione per due o più varianze stimate del coefficiente di regressione.

Il numero di indici di condizione ritenuti grandi (diciamo, maggiore di ) in (1) identifica il numero di dipendenze vicine tra le colonne della matrice di dati e le magnitudini di questi indici di alta condizione forniscono una misura della loro "tenuta" relativa. " Inoltre, la determinazione in (2) di grandi proporzioni di varianza-decomposizione (diciamo, maggiore di ) associate a ciascun indice di condizione alta identifica quelle variate che sono coinvolte nella corrispondente dipendenza vicina, e l'entità di queste proporzioni in congiunzione con l'alto L'indice di condizione fornisce una misura del grado in cui la corrispondente stima di regressione è stata degradata dalla presenza di collinearità.30X0.5


10
  • I fattori di inflazione della varianza (VIF) sono facili da capire. Registra ognuna delle colonne della matrice del disegno su tutte le altre, nota di questo modello, calcola e il gioco è fatto. Un VIF di 10 significa che puoi spiegare il 90% della varianza di un predittore usando tutti gli altri regressori. Questo è tipicamente usato come una regola empirica per la collinearità.R21/(1R2)

    Tuttavia, i VIF implementati in genere non possono dirti della collinearità con l'intercettazione, dal momento che l'intercettazione è di solito inclusa silenziosamente in queste regressioni "di supporto". Inoltre, se un regressore ha un VIF elevato, non si sa immediatamente quali altri regressori sono responsabili della collinearità. Dovresti esaminare i coefficienti standardizzati nelle regressioni degli helper.

  • Gli indici di condizione e le proporzioni di decomposizione della collinearità di Belsley, Kuh & Welsch (Belsley, DA; Kuh, E. & Welsch, Diagnostica di regressione RE : identificazione di dati influenti e fonti di collinearità. John Wiley & Sons, 1980) sono molto più difficili da capire. Ho lavorato con questi alcuni anni fa, ma non tenterò di spiegarli qui senza ottenere un aggiornamento ;-)

    Questa diagnostica non consentono il rilevamento collinearità con l'intercetta. E puoi investigare le proporzioni di decomposizione della collinearità per dedurre quali altri regressori sono responsabili della collinearità di un dato regressore.


Grazie - molto utile - sei per caso a conoscenza di una citazione per il VIF maggiore di 10 regole empiriche ... Posso trovare in molte note di lezioni di econ, ma non riesco a trovare nulla pubblicato che dice che .. .
Kyrenia

@kyrenia "maggiore di 10" è tutt'altro che l'unica soglia che ho visto suggerito! Mi chiedo se ci sia variazione tra i campi o semplicemente tra autori.
Silverfish,

3
@Silverfish Sicuramente c'è una variazione tra i campi. Mi è stato detto di persone di progettazione sperimentale che insegnano che un VIF oltre deve essere corretto! Per gli studi osservazionali, dovrebbero esserci anche variazioni a seconda del numero di regressori: più ci sono, più grandi saranno i VIF solo a causa della fluttuazione del caso. Con centinaia di variabili in molti casi dovrai solo tollerare VIF di o più grandi. Presumibilmente ci sono anche dati sufficienti in questi casi per compensare tale inflazione varianza. 2100
whuber

@whuber Grazie per quello. Questa è un'osservazione molto interessante e molto rilevante per la domanda posta dall'OP: data l'importanza "di secondo rango" dei commenti all'interno del sistema StackExchange, penso che dovresti considerare di incorporarlo nella tua eccellente risposta.
Silverfish,

6

Per riferimenti ampiamente disponibili da citare, il libro Faraway a pagina 117 fornisce una regola empirica di sopra di 30 per il rilevamento di problemi in base ai numeri delle condizioni e Un'Introduzione all'apprendimento statistico , pagina 101, afferma che i valori VIF superiori a 5 o 10 indicano un problema .

Probabilmente più importante di quale metodo utilizzi per identificare la multicollinearità sarà il modo in cui affrontarlo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.