C'è un motivo per preferire una misura specifica di multicollinearità?


22

Quando lavoriamo con molte variabili di input, ci preoccupiamo spesso della multicollinearità . Esistono diverse misure di multicollinearità utilizzate per rilevare, riflettere e / o comunicare la multicollinearità. Alcuni consigli comuni sono:

  1. Il multiplo per una particolare variabile Rj2
  2. La tolleranza, , per una particolare variabile 1-Rj2
  3. Il fattore di inflazione della varianza, , per una particolare variabile VIF=1tolleranza
  4. Il numero di condizione della matrice di progettazione nel suo insieme:

    max (autovalore (X'X))min (autovalore (X'X))

(Ci sono alcune altre opzioni discusse nell'articolo di Wikipedia, e qui su SO nel contesto di R.)

Il fatto che i primi tre siano una funzione perfetta l'uno dell'altro suggerisce che l'unico vantaggio netto possibile tra loro sarebbe psicologico. D'altra parte, i primi tre consentono di esaminare le variabili singolarmente, il che potrebbe essere un vantaggio, ma ho sentito che il metodo del numero di condizione è considerato il migliore.

  • È vero? Meglio per cosa?
  • Il numero di condizione è una funzione perfetta di Rj2 ? (Penso che sarebbe.)
  • Le persone trovano che uno di loro sia più facile da spiegare? (Non ho mai provato a spiegare questi numeri al di fuori della classe, do solo una descrizione libera e qualitativa della multicollinearità.)

Ho pubblicato una domanda di follow-up correlata, con le risposte a quella che integra ciò che è già qui: stats.stackexchange.com/questions/173665/…
kyrenia

Risposte:


15

Alla fine degli anni '90 ho svolto la mia tesi sulla collinearità.

La mia conclusione è stata che gli indici delle condizioni erano i migliori.

Il motivo principale è che, anziché esaminare le singole variabili, consente di esaminare gruppi di variabili. Poiché la collinearità è una funzione di insiemi di variabili, questa è una buona cosa.

Inoltre, i risultati del mio studio di Monte Carlo hanno mostrato una migliore sensibilità alla collinearità problematica, ma ho dimenticato da tempo i dettagli.

D'altra parte, è probabilmente il più difficile da spiegare. Molte persone sanno cos'è . Solo un piccolo sottoinsieme di queste persone ha sentito parlare di autovalori. Tuttavia, quando ho usato gli indici di condizione come strumento diagnostico, non mi è mai stata chiesta una spiegazione.R2

Per ulteriori informazioni, consulta i libri di David Belsley. Oppure, se proprio lo desideri, puoi ottenere la mia tesi Diagnostica multicollinearità per regressione multipla: uno studio di Monte Carlo


1
Quindi l'idea qui è che guardando i VIF, potresti erroneamente concludere che la multicollinearità non è un problema, ma se avessi guardato il numero della condizione, avresti avuto maggiori probabilità di trarre la giusta conclusione? Forse qualcosa come un test con una maggiore potenza statistica?
gung - Ripristina Monica

4
+1. Fortunatamente, per spiegare il numero di condizione abbiamo già un thread eccezionale su questo sito: è la massima distorsione trovata nella descrizione del secondo ordine delle variabili di progetto come nuvola di punti. Maggiore è la distorsione, più i punti tendono a trovarsi all'interno di un sottospazio. Questa intuizione geometrica mostra anche perché il condizionamento di una matrice di design centrata sia migliore di quello della matrice di design grezza stessa.
whuber

1
Bene, è difficile definire esattamente quale sia la conclusione "giusta"; ma dovrebbe avere qualcosa a che fare con piccoli cambiamenti nei dati che producono grandi cambiamenti nell'output. Ricordo che gli indici delle condizioni erano più direttamente correlati a questo. Ma la cosa importante era ottenere le proporzioni di varianza, che ti permettevano di vedere gruppi di variabili e il grado della loro collinearità. (Certo, tutto ciò è stato 14 anni fa .... ma non credo che le cose siano cambiate. Le misure sono le stesse. Ma la mia memoria potrebbe non essere perfetta).
Peter Flom - Ripristina Monica

3
Gung, un punto chiave qui è che il numero di condizione è indipendente dalle coordinate: rimane invariato nelle ricombinazioni lineari (ortogonali) dei dati. Quindi non può assolutamente esprimere nulla sulle singole variabili ma deve acquisire una proprietà dell'intera raccolta. Usarlo in tal modo ti isola parzialmente dall'essere fuorviato da come le tue variabili si manifestano.
whuber

1
Sono stato troppo sommerso per terminare la tua tesi di laurea, ma finora è stato davvero utile. Grazie ancora.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.