Quando lavoriamo con molte variabili di input, ci preoccupiamo spesso della multicollinearità . Esistono diverse misure di multicollinearità utilizzate per rilevare, riflettere e / o comunicare la multicollinearità. Alcuni consigli comuni sono:
- Il multiplo per una particolare variabile
- La tolleranza, , per una particolare variabile
- Il fattore di inflazione della varianza, , per una particolare variabile
Il numero di condizione della matrice di progettazione nel suo insieme:
(Ci sono alcune altre opzioni discusse nell'articolo di Wikipedia, e qui su SO nel contesto di R.)
Il fatto che i primi tre siano una funzione perfetta l'uno dell'altro suggerisce che l'unico vantaggio netto possibile tra loro sarebbe psicologico. D'altra parte, i primi tre consentono di esaminare le variabili singolarmente, il che potrebbe essere un vantaggio, ma ho sentito che il metodo del numero di condizione è considerato il migliore.
- È vero? Meglio per cosa?
- Il numero di condizione è una funzione perfetta di ? (Penso che sarebbe.)
- Le persone trovano che uno di loro sia più facile da spiegare? (Non ho mai provato a spiegare questi numeri al di fuori della classe, do solo una descrizione libera e qualitativa della multicollinearità.)