Ho appena corso due milioni di regressioni

Attualmente sto cercando di implementare un metodo utilizzato in un famoso documento intitolato "I Just Ran Two Million Regressions". L'idea di base è che ci sono alcuni casi in cui non è ovvio quali controlli dovrebbero essere inclusi nel modello. Una cosa che puoi fare in questo caso è disegnare casualmente controlli, eseguire milioni di regressioni diverse e quindi vedere come ha reagito la tua variabile di interesse. Se generalmente ha lo stesso segno in tutte le specifiche, possiamo considerarlo più solido di una variabile il cui segno cambia sempre.

Gran parte della carta è molto chiara. Tuttavia, il documento pondera tutte queste diverse regressioni nel modo seguente: La probabilità integrata della specifica data è divisa per la somma di tutte le probabilità integrate per tutte le specifiche.

Il problema che sto avendo è che non sono sicuro di come la probabilità integrata sia correlata alle regressioni OLS che vorrei eseguire (in Stata). Argomenti su Google come "è stata la probabilità integrata" è stato un vicolo cieco mentre continuo a imbattermi in cose come la regressione logistica a effetti misti. Confesso che questi modelli sono troppo complessi per essere afferrati.

Il mio lavoro attuale è che ci sono diversi schemi di ponderazione usati in letteratura che io capisco (in qualche modo). Ad esempio, è possibile ponderare ciascuna regressione in base all'indice del rapporto di verosimiglianza. Esiste persino un pacchetto R che utilizza lri come pesi. Naturalmente, vorrei implementare anche quello originale.

Qualche consiglio?

Collegamento cartaceo: http://down.cenet.org.cn/upfile/34/2009112141315178.pdf

likelihood-ratio

— NikolaiB
fonte

Questo thread potrebbe rispondere ad alcune delle tue preoccupazioni ... stats.stackexchange.com/questions/215154/…

— Mike Hunter,

Una volta ho scritto una funzione in MATLAB replicando il risultato di Sala-i-Martin (che, a proposito, non è davvero all'avanguardia nella selezione del modello), vedi dropbox.com/s/mqa7qvhn7w5pkag/… . La probabilità integrata (non sono sicuro di cosa si stia riferendo esattamente) probabilmente è solo la probabilità logaritmica esponenziale.

— Christoph Hanck,

Grazie! Mi riferisco all'equazione 4 a pagina 179. Indica "Dove i pesi sono proporzionali alle probabilità (integrate)"

— NikolaiB,

Per OLS, è ancora possibile calcolare la funzione di verosimiglianza (la verosimiglianza logaritmica esponenziale, come menziona Christoph Hanck nel commento). È solo il buon vecchio . Stata lo memorizza come dopo aver eseguito una regressione usando $L_i = \prod_i (2\pi \sigma^2)^{-.5} \exp(-.5 (y_i - x_i\beta)^2)$ e(ll)regress

Quindi costruisci pesi come . $w_i = \frac{L_i}{\sum_j L_j}$

Infine, costruisci medie ponderate dei tuoi coefficienti di regressione usando come pesi. $w_i$

— Superpronker
fonte

Ho appena corso due milioni di regressioni - Probabilità integrata