VIF, indice di condizione e autovalori


15

Attualmente sto valutando la multicollinearità nei miei set di dati.

Quali valori soglia di VIF e indice delle condizioni sotto / sopra suggeriscono un problema?

VIF: Ho sentito che VIF è un problema.10

Dopo aver rimosso due variabili problematiche, VIF è per ogni variabile. Le variabili hanno bisogno di più cure o questo VIF sembra a posto?3.96

Indice delle condizioni: ho sentito che un indice delle condizioni (CI) di 30 o più è un problema. Il mio CI più alto è 16,66. È un problema?

Altri problemi:

  • Ci sono altri dos / donts che devono essere considerati?
  • Ci sono altre cose che devo tenere a mente?

1
Si prega di chiarire la domanda. In particolare, questi erano alcuni commenti di prima: di @chl - "dovresti considerare di scrivere domande chiare (sono interessanti da sole), con un problema definitivo, e riservare commenti per ulteriori informazioni rilevanti per la tua domanda originale, non seguire- su". Di @shane - "Riguardo a questa domanda attuale: potrebbe anche essere migliorata perché ha posto molte domande diverse senza un chiaro filo conduttore. Sei interessato alla multicollinearità in generale? O sei interessato a VIF? Sarebbe meglio risolverle per chiarezza."

Risposte:


5

Il problema della multicollinearità è ben studiato nella maggior parte dei libri di testo econometrici. Inoltre c'è un buon articolo su Wikipedia che riassume in realtà la maggior parte delle questioni chiave.

XTX

  1. grandi cambiamenti nelle stime dei parametri durante l'esecuzione di regressioni continuative o stime su sottocampioni minori di dati
  2. tF
  3. R2
  4. L'indice di condizione è un'alternativa a VIF nel tuo caso né VIF né CI mostrano che il problema è rimasto, quindi potresti essere soddisfatto statisticamente su questo risultato, ma ...

probabilmente non teoricamente, poiché può accadere (e di solito è il caso) che tutte le variabili siano presenti nel modello. Escludendo le variabili rilevanti (omesso problema variabile) si effettueranno comunque stime di parametri distorte e incoerenti. D'altra parte potresti essere costretto a includere tutte le variabili di focus semplicemente perché la tua analisi si basa su di essa. Nell'approccio di data mining, anche se sei più tecnico nella ricerca della soluzione migliore.

Quindi tieni a mente le alternative (che vorrei usare da solo):

  1. ottenere più punti dati (ricordare che i requisiti VIF sono più piccoli per un set di dati più grande e le variabili esplicative se variano lentamente, possono cambiare per alcuni punti cruciali nel tempo o sezione)
  2. cerca i fattori lattici attraverso i componenti principali (questi ultimi sono combinazioni ortogonali, quindi non multi-collineari per costruzione, più oltre coinvolgono tutte le variabili esplicative)
  3. ridge-regression (introduce una leggera distorsione nelle stime dei parametri, ma le rende altamente stabili)

Alcuni altri trucchi sono nell'articolo wiki sopra indicato.


3

Credo che Belsely abbia affermato che gli IC oltre 10 sono indicativi di un possibile problema moderato, mentre oltre 30 è più grave.

Inoltre, dovresti guardare la varianza condivisa da insiemi di variabili negli indici ad alta condizione. C'è un dibattito (o è stato, l'ultima volta che ho letto questa letteratura) se la collinearità che coinvolge una variabile e l'intercettazione fosse problematica o meno, e se centrare la variabile offensiva si liberasse del problema, o semplicemente lo spostasse altrove.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.