Belsley, Kuh e Welsch sono il testo a cui rivolgersi per questo tipo di domanda. Includono un'ampia discussione sulla diagnostica precedente in una sezione intitolata "Prospettiva storica". Per quanto riguarda VIF scrivono
... Se assumiamo la dati sono stati centrati in scala e di avere unità di lunghezza, la matrice di correlazione è semplicemente . ...XRX′X
Stiamo considerando . Gli elementi diagonali di , il , sono spesso chiamati fattori di inflazione della varianza, , e il loro valore diagnostico deriva dalla relazione dove è il coefficiente di correlazione multipla di regredito sulle restanti variabili esplicative. Chiaramente un VIF alto indica un vicino all'unità, e quindi punta alla collinearità. Questa misura è pertanto utile come indicazione generale di collinearità. I suoi punti deboli, come quelli diR−1=(X′X)−1R−1riiVIFi
VIFi=11−R2i
R2iXiR2iR, risiede nella sua incapacità di distinguere tra diverse dipendenze vicine coesistenti e nella mancanza di un confine significativo per distinguere tra valori di VIF che possono essere considerati alti e quelli che possono essere considerati bassi.
Al posto di analizzare (o ), BKW proporre attento, l'esame controllata del Singular Value Decomposition di . Lo motivano dimostrando che il rapporto tra i valori singolari più grandi e quelli più piccoli è il numero di condizione di e mostrano come il numero di condizione fornisca (a volte stretto) limiti alla propagazione degli errori di calcolo nel calcolo delle stime di regressione. Continuano a tentare una scomposizione approssimativa delle varianze delle stime dei parametri in componenti associati ai valori singolari. Il potere di questa decomposizione sta nella sua capacità (in molti casi) di rivelare la naturaRR−1XXβ^i della collinearità, piuttosto che semplicemente indicarne la presenza.
Chiunque abbia creato modelli di regressione con centinaia di variabili apprezzerà questa funzione! Una cosa è che il software dice "i tuoi dati sono collineari, non posso procedere" o anche dire "i tuoi dati sono collineari, sto gettando le seguenti variabili". È del tutto molto più utile poter dire "il gruppo di variabili sta causando instabilità nei calcoli: vedi di quali di queste variabili puoi fare a meno o considerare eseguendo un'analisi dei componenti principali per ridurne il numero. "Xi1,…,Xik
Alla fine, BKW consiglia di diagnosticare la collinearità mediante
... la seguente doppia condizione:
- Un valore singolare giudicato avere un indice di condizione elevato e al quale è associato
- Elevate proporzioni di varianza-decomposizione per due o più varianze stimate del coefficiente di regressione.
Il numero di indici di condizione ritenuti grandi (diciamo, maggiore di ) in (1) identifica il numero di dipendenze vicine tra le colonne della matrice di dati e le magnitudini di questi indici di alta condizione forniscono una misura della loro "tenuta" relativa. " Inoltre, la determinazione in (2) di grandi proporzioni di varianza-decomposizione (diciamo, maggiore di ) associate a ciascun indice di condizione alta identifica quelle variate che sono coinvolte nella corrispondente dipendenza vicina, e l'entità di queste proporzioni in congiunzione con l'alto L'indice di condizione fornisce una misura del grado in cui la corrispondente stima di regressione è stata degradata dalla presenza di collinearità.30X0.5