Qualche giorno fa c'era una domanda simile che aveva il riferimento pertinente:
- Belloni, A., Chernozhukov, V. e Hansen, C. (2014) "Inferenza sugli effetti del trattamento dopo la selezione tra controlli ad alta dimensione", Review of Economic Studies, 81 (2), pagg. 608-50 ( link )
Almeno per me il documento è una lettura piuttosto difficile perché le prove dietro questa relativamente semplice sono abbastanza elaborate. Quando sei interessato a stimare un modello come
yio= α Tio+ X'ioβ+ ϵio
dove è il tuo risultato, T i è un effetto terapeutico di interesse e X i è un vettore di potenziali controlli. Il parametro target è α . Supponendo che la maggior parte della variazione del risultato sia spiegata dal trattamento e da una serie limitata di controlli, Belloni et al. (2014) sviluppano un doppio metodo di selezione che fornisce stime puntuali corrette e intervalli di confidenza validi. Questa ipotesi di scarsità è importante però.yioTioXioα
Se include alcuni importanti predittori di y i ma non sai quali siano (variabili singole, polinomi di ordine superiore o interazioni con altre variabili), puoi eseguire una procedura di selezione in tre passaggi:Xioyio
- regresso su X i , le loro piazze, e le interazioni, e selezionare importanti predittori utilizzando LASSOyioXio
- regredisci su X i , i loro quadrati e interazioni e seleziona importanti predittori usando LASSOTioXio
- regredire su T i e tutte le variabili che sono state selezionate in uno dei primi due passaggiyioTio
Forniscono prove del perché questo funziona e perché si ottengono gli intervalli di confidenza corretti, ecc. Da questo metodo. Mostrano anche che se si esegue solo una selezione LASSO sulla regressione di cui sopra e quindi si regredisce il risultato sul trattamento e le variabili selezionate si ottengono stime errate dei punti e intervalli di falsa fiducia, come già detto da Björn.
Lo scopo è duplice: il confronto tra il modello iniziale, in cui la selezione delle variabili è stata guidata da intuizione o teoria, con il modello di selezione a doppia robustezza ti dà un'idea di quanto fosse buono il tuo primo modello. Forse il tuo primo modello ha dimenticato alcuni importanti termini al quadrato o di interazione e quindi soffre di una forma funzionale non specificata o di variabili omesse. In secondo luogo, la Belloni et al. Il metodo (2014) può migliorare l'inferenza sul parametro target perché i regressori ridondanti sono stati penalizzati nella loro procedura.