Sto eseguendo una grande regressione OLS in cui tutte le variabili indipendenti (circa 400) sono variabili fittizie. Se tutti sono inclusi, esiste una perfetta multicollinearità (la trappola variabile fittizia), quindi devo omettere una delle variabili prima di eseguire la regressione.
La mia prima domanda è: quale variabile dovrebbe essere omessa? Ho letto che è meglio omettere una variabile presente in molte osservazioni piuttosto che una presente in poche (ad es. Se quasi tutte le osservazioni sono "maschio" o "femmina" e solo alcune sono "sconosciute" ", ometti" maschio "o" femmina "). Questo è giustificato?
Dopo aver eseguito la regressione con una variabile omessa, sono in grado di stimare il valore del coefficiente della variabile omessa perché so che la media complessiva di tutte le mie variabili indipendenti dovrebbe essere 0. Quindi uso questo fatto per spostare i valori dei coefficienti per tutte le variabili variabili incluse e ottenere una stima per la variabile omessa. La mia prossima domanda è se esiste una tecnica simile che può essere utilizzata per stimare l'errore standard per il valore del coefficiente della variabile omessa. Dato che devo ripetere la regressione omettendo una variabile diversa (e includendo la variabile che avevo omesso nella prima regressione) per acquisire una stima di errore standard per il coefficiente della variabile originariamente omessa.
Infine, noto che le stime dei coefficienti che ottengo (dopo aver ricentrato attorno allo zero) variano leggermente a seconda della variabile omessa. In teoria, sarebbe meglio eseguire diverse regressioni, ognuna omettendo una variabile diversa, e quindi fare una media delle stime dei coefficienti di tutte le regressioni?