La procedura di effetti fissi di Mundlak è applicabile per la regressione logistica con i manichini?


12

Ho un set di dati con 8000 cluster e 4 milioni di osservazioni. Sfortunatamente il mio software statistico, Stata, funziona piuttosto lentamente quando si usa la sua funzione di dati del pannello per la regressione logistica:, xtlogitanche con un sottocampione del 10%.

Tuttavia, quando si utilizza la logitfunzione non pannello i risultati appaiono molto prima. Pertanto potrei essere in grado di beneficiare dell'utilizzo di logitdati modificati che tengono conto degli effetti fissi.

Credo che questa procedura sia coniata con la "procedura di effetti fissi di Mundlak" (Mundlak, Y. 1978. Pooling of Time-Series and Cross-Section Data. Econometrica, 46 (1), 69-85.)

Ho trovato una spiegazione intuitiva di questa procedura in un articolo di Antonakis, J., Bendahan, S., Jacquart, P., & Lalive, R. (2010). Su come fare affermazioni causali: una revisione e raccomandazioni. The Leadership Quarterly, 21 (6). 1086-1120. Quoto:

Un modo per aggirare il problema degli effetti fissi omessi e includere ancora le variabili di livello 2 è quello di includere le medie cluster di tutte le covariate di livello 1 nel modello stimato (Mundlak, 1978). I mezzi a grappolo possono essere inclusi come regressori o sottratti (vale a dire, centraggio della media a grappolo) dalla covariata di Livello 1. Le medie del cluster sono invarianti all'interno del cluster (e variano tra i cluster) e consentono una stima coerente dei parametri di livello 1 proprio come se fossero stati inclusi effetti fissi (vedi Rabe-Hesketh & Skrondal, 2008).

Pertanto la centratura media dei cluster sembra ideale e pratica per risolvere il mio problema computazionale. Tuttavia, questi documenti sembrano orientati verso la regressione lineare (OLS).

Questo metodo di centraggio della media dei cluster è applicabile anche per "replicare" la regressione logistica binaria degli effetti fissi?

Una domanda più tecnica che dovrebbe dare la stessa risposta sarebbe: è xtlogit depvar indepvars, fecon il set di dati A uguale al logit depvar indepvarsset di dati B quando il set di dati B è la versione centrata sulla media del cluster del set di dati A?

Un'ulteriore difficoltà che ho riscontrato in questo centramento medio-cluster è come affrontare i manichini. Poiché i manichini sono 0 o 1, sono identici nella regressione di effetti casuali e fissi? Non dovrebbero essere "centrati"?

Risposte:


9

La prima differenziazione o all'interno di trasformazioni come il degrado non sono disponibili in modelli come logit perché nel caso di modelli non lineari tali trucchi non rimuovono gli effetti fissi non osservati. Anche se avessi un set di dati più piccolo in cui era possibile includere singoli manichini N-1 per stimare direttamente gli effetti fissi, ciò porterebbe a stime distorte a meno che la dimensione temporale dei tuoi dati non sia grande. L'eliminazione degli effetti fissi nel panel logit non segue quindi né differenze né umilianti ed è possibile solo a causa della forma funzionale logit. Se siete interessati ai dettagli, potete dare un'occhiata a queste note di Söderbom in PDF a pagina 30 (spiegazione del perché l'umiliazione / prima differenza in logit / probit non aiuta) e pagina 42 (introduzione dello stimatore del logit del pannello).

Un altro problema è che xtlogit, in generale, i modelli panel logit non stimano direttamente gli effetti fissi necessari per calcolare gli effetti marginali. Senza quelli, sarà molto imbarazzante interpretare i tuoi coefficienti che potrebbero essere deludenti dopo aver eseguito il modello per ore e ore.

Con un set di dati così ampio e le difficoltà di concezione precedentemente menzionate del log panel FE, mi atterrei al modello di probabilità lineare. Spero che questa risposta non ti deluda ma ci sono molte buone ragioni per dare questo consiglio: l'LPM è molto più veloce, i coefficienti possono essere interpretati immediatamente (questo vale in particolare se si hanno effetti di interazione nel proprio modello perché l'interpretazione del loro i coefficienti nei modelli non lineari cambiano!), gli effetti fissi sono facilmente controllabili e puoi regolare gli errori standard per autocorrelazione e cluster senza che i tempi di stima aumentino oltre la ragione. Spero che questo possa essere d'aiuto.


1
Non è una soluzione ma è una risposta. Grazie :)
Tom,

1
Piccolo punto: p20 di queste diapositive rende il tuo caso, ma un modello di correzione di Mundlak aka "effetti casuali correlati" è descritto a p47 e sembra non avere tali avvertenze.
conjugateprior,

1

Credo che logit condizionale ("clogit" su Stata), è uno stimatore del pannello logit ad effetto fisso alternativo.

http://www3.nd.edu/~rwilliam/stats3/Panel03-FixedEffects.pdf


5
Benvenuti nel sito! Penso che questa non sia una risposta accettabile, dal momento che la domanda è in realtà: come evitare la regressione logistica condizionale (ad effetti fissi) mediante una regressione logistica modificata trasversale, allo scopo di accelerare la stima. Come indica il tuo riferimento (nella parte superiore della pagina 3), "possiamo usare Statail clogitcomando di entrambi o il xtlogit, fecomando per fare un'analisi di logit a effetti fissi. Entrambi danno gli stessi risultati. (In effetti, credo che in xtlogit, ferealtà chiama clogit.)" OP già sapeva xtlogit, fesulla base del penultimo paragrafo.
Randel,

0

Allison ha discusso di questo problema in Allison, (2009), "Modelli di regressione degli effetti fissi", p.32f.

Allison sostiene che non è possibile stimare un modello incondizionato con la massima probabilità. Questo perché i modelli diventano distorti a causa del "problema dei parametri accidentali". Invece, raccomanda di usare un modello logit condizionale (Chamberlain, 1980). Ciò si ottiene condizionando la funzione di probabilità sul numero di eventi osservati per ciascun individuo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.