Problemi fittizi trappola variabile


10

Sto eseguendo una grande regressione OLS in cui tutte le variabili indipendenti (circa 400) sono variabili fittizie. Se tutti sono inclusi, esiste una perfetta multicollinearità (la trappola variabile fittizia), quindi devo omettere una delle variabili prima di eseguire la regressione.

La mia prima domanda è: quale variabile dovrebbe essere omessa? Ho letto che è meglio omettere una variabile presente in molte osservazioni piuttosto che una presente in poche (ad es. Se quasi tutte le osservazioni sono "maschio" o "femmina" e solo alcune sono "sconosciute" ", ometti" maschio "o" femmina "). Questo è giustificato?

Dopo aver eseguito la regressione con una variabile omessa, sono in grado di stimare il valore del coefficiente della variabile omessa perché so che la media complessiva di tutte le mie variabili indipendenti dovrebbe essere 0. Quindi uso questo fatto per spostare i valori dei coefficienti per tutte le variabili variabili incluse e ottenere una stima per la variabile omessa. La mia prossima domanda è se esiste una tecnica simile che può essere utilizzata per stimare l'errore standard per il valore del coefficiente della variabile omessa. Dato che devo ripetere la regressione omettendo una variabile diversa (e includendo la variabile che avevo omesso nella prima regressione) per acquisire una stima di errore standard per il coefficiente della variabile originariamente omessa.

Infine, noto che le stime dei coefficienti che ottengo (dopo aver ricentrato attorno allo zero) variano leggermente a seconda della variabile omessa. In teoria, sarebbe meglio eseguire diverse regressioni, ognuna omettendo una variabile diversa, e quindi fare una media delle stime dei coefficienti di tutte le regressioni?


Potresti chiarire cosa intendi con "la media complessiva di tutte le mie variabili indipendenti dovrebbe essere 0" e come lo sai?
onestop il

Fondamentalmente voglio valutare tutte le variabili relative alla media (la media di tutte le variabili). I coefficienti della regressione sono relativi alla variabile omessa. Quindi, quando sottraggo la media di tutti i coefficienti (compreso il coefficiente di 0 della variabile omessa) da ciascun valore di coefficiente, i valori corretti ora avranno una media di 0 e ogni valore di coefficiente può essere visto come la distanza dalla media.
James Davison,

Risposte:


8

Dovresti ottenere le "stesse" stime, indipendentemente dalla variabile che ometti; i coefficienti possono essere diversi, ma le stime di particolari quantità o aspettative dovrebbero essere le stesse su tutti i modelli.

In un caso semplice, lascia per gli uomini e 0 per le donne. Quindi, abbiamo il modello: E [ y ix i ]Xio=1 Ora, lascia chezi=1per le donne. Quindi E [ y iz i ]

E[yio|Xio]=XioE[yio|Xio=1]+(1-Xio)E[yio|Xio=0]=E[yio|Xio=0]+[E[yio|Xio=1]-E[yio|Xio=0]]Xio=β0+β1Xio.
zio=1 Il valore atteso diyper le donne èβ0e ancheγ0+γ1. Per gli uomini, èβ0+β1eγ0.
E[yio|zio]=zioE[yio|zio=1]+(1-zio)E[yio|zio=0]=E[yio|zio=0]+[E[yio|zio=1]-E[yio|zio=0]]zio=γ0+γ1zio.
yβ0γ0+γ1β0+β1γ0

Questi risultati mostrano come sono correlati i coefficienti dei due modelli. Ad esempio, . Un esercizio simile che usa i tuoi dati dovrebbe mostrare che i "diversi" coefficienti che ottieni sono solo somme e differenze l'una dell'altra.β1=-γ1


4

James, prima di tutto perché l'analisi di regressione, ma non ANOVA (ci sono molti specialisti in questo tipo di analisi che potrebbero aiutarti)? I pro di ANOVA sono che tutto ciò a cui sei veramente interessato sono le differenze nei mezzi di diversi gruppi descritti da combinazioni di variabili fittizie (categorie o profili unici). Bene, se studi gli impatti di ciascuna delle variabili categoriche che includi, puoi anche eseguire la regressione.

n(1,0)(0,1)(-1,-1)

Beh, omettere le categorie del profilo più grande mi sembra buono, anche se non così importante, almeno non è vuoto, penso. Poiché si codificano le variabili in modo specifico, la significatività statistica congiunta delle variabili fittizie incluse (entrambe maschi femmine, potrebbe essere testata con il test F) implica il significato di quella omessa.

Può succedere che i risultati siano leggermente diversi, ma può essere la codifica sbagliata che influenza questo?


Inizia a perdonare se la mia scrittura non è chiara, è una mezzanotte in Lituania.
Dmitrij Celov

Perché il tuo sconosciuto (-1, -1) invece di (0,0)?
Siamii,

1

Senza conoscere la natura esatta della tua analisi, hai considerato la codifica degli effetti? In questo modo ogni variabile rappresenterebbe l'effetto di quel tratto / attributo rispetto alla media generale complessiva piuttosto che a una particolare categoria omessa. Credo che manchi ancora un coefficiente per una delle categorie / attributi - quello a cui assegni un -1. Tuttavia, con questi manichini, penserei che il grande mezzo creerebbe un gruppo di confronto più significativo rispetto a qualsiasi particolare categoria omessa.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.