Attualmente sto cercando di implementare un metodo utilizzato in un famoso documento intitolato "I Just Ran Two Million Regressions". L'idea di base è che ci sono alcuni casi in cui non è ovvio quali controlli dovrebbero essere inclusi nel modello. Una cosa che puoi fare in questo caso è disegnare casualmente controlli, eseguire milioni di regressioni diverse e quindi vedere come ha reagito la tua variabile di interesse. Se generalmente ha lo stesso segno in tutte le specifiche, possiamo considerarlo più solido di una variabile il cui segno cambia sempre.
Gran parte della carta è molto chiara. Tuttavia, il documento pondera tutte queste diverse regressioni nel modo seguente: La probabilità integrata della specifica data è divisa per la somma di tutte le probabilità integrate per tutte le specifiche.
Il problema che sto avendo è che non sono sicuro di come la probabilità integrata sia correlata alle regressioni OLS che vorrei eseguire (in Stata). Argomenti su Google come "è stata la probabilità integrata" è stato un vicolo cieco mentre continuo a imbattermi in cose come la regressione logistica a effetti misti. Confesso che questi modelli sono troppo complessi per essere afferrati.
Il mio lavoro attuale è che ci sono diversi schemi di ponderazione usati in letteratura che io capisco (in qualche modo). Ad esempio, è possibile ponderare ciascuna regressione in base all'indice del rapporto di verosimiglianza. Esiste persino un pacchetto R che utilizza lri come pesi. Naturalmente, vorrei implementare anche quello originale.
Qualche consiglio?
Collegamento cartaceo: http://down.cenet.org.cn/upfile/34/2009112141315178.pdf