Ho un set di dati con 8000 cluster e 4 milioni di osservazioni. Sfortunatamente il mio software statistico, Stata, funziona piuttosto lentamente quando si usa la sua funzione di dati del pannello per la regressione logistica:, xtlogit
anche con un sottocampione del 10%.
Tuttavia, quando si utilizza la logit
funzione non pannello i risultati appaiono molto prima. Pertanto potrei essere in grado di beneficiare dell'utilizzo di logit
dati modificati che tengono conto degli effetti fissi.
Credo che questa procedura sia coniata con la "procedura di effetti fissi di Mundlak" (Mundlak, Y. 1978. Pooling of Time-Series and Cross-Section Data. Econometrica, 46 (1), 69-85.)
Ho trovato una spiegazione intuitiva di questa procedura in un articolo di Antonakis, J., Bendahan, S., Jacquart, P., & Lalive, R. (2010). Su come fare affermazioni causali: una revisione e raccomandazioni. The Leadership Quarterly, 21 (6). 1086-1120. Quoto:
Un modo per aggirare il problema degli effetti fissi omessi e includere ancora le variabili di livello 2 è quello di includere le medie cluster di tutte le covariate di livello 1 nel modello stimato (Mundlak, 1978). I mezzi a grappolo possono essere inclusi come regressori o sottratti (vale a dire, centraggio della media a grappolo) dalla covariata di Livello 1. Le medie del cluster sono invarianti all'interno del cluster (e variano tra i cluster) e consentono una stima coerente dei parametri di livello 1 proprio come se fossero stati inclusi effetti fissi (vedi Rabe-Hesketh & Skrondal, 2008).
Pertanto la centratura media dei cluster sembra ideale e pratica per risolvere il mio problema computazionale. Tuttavia, questi documenti sembrano orientati verso la regressione lineare (OLS).
Questo metodo di centraggio della media dei cluster è applicabile anche per "replicare" la regressione logistica binaria degli effetti fissi?
Una domanda più tecnica che dovrebbe dare la stessa risposta sarebbe: è xtlogit depvar indepvars, fe
con il set di dati A uguale al logit depvar indepvars
set di dati B quando il set di dati B è la versione centrata sulla media del cluster del set di dati A?
Un'ulteriore difficoltà che ho riscontrato in questo centramento medio-cluster è come affrontare i manichini. Poiché i manichini sono 0 o 1, sono identici nella regressione di effetti casuali e fissi? Non dovrebbero essere "centrati"?