Che senso ha fare OLS dopo la selezione delle variabili LASSO?


20

Recentemente ho scoperto che nella letteratura di econometria applicata, quando si affrontano i problemi di selezione delle caratteristiche, non è raro eseguire LASSO seguito da una regressione OLS usando le variabili selezionate.

Mi chiedevo come possiamo qualificare la validità di tale procedura. Causerà problemi come le variabili omesse? Qualche prova che dimostri che è più efficiente o che i risultati sono più interpretabili?

Ecco alcune discussioni correlate:

Selezione variabile con LASSO

Utilizzo degli alberi dopo la selezione delle variabili mediante Lazo / Casuale

Se, come sottolineato, tale procedura non è corretta in generale, allora perché ci sono ancora così tante ricerche che lo fanno? Posso dire che è solo una regola empirica, una soluzione di compromesso, a causa di alcune proprietà inquiete dello stimatore LASSO e della passione delle persone per OLS?


Potresti spiegare cosa significa fare "regressione OLS" dopo aver eseguito LASSO? Cosa, in particolare, questo passaggio OLS sta tentando di stimare che LASSO non ha stimato?
whuber

2
Ci sono alcuni documenti di lavoro recenti sull'argomento. Molti sembrano presupporre che l'insieme di variabili valide sia scarso. Se tale presupposto non è valido, allora sarebbe presente la distorsione da variabili omesse. E alla gente piace ols perché vogliono interpretare i coef come effetti marginali fuori campione. L'econometria è piuttosto bloccata in quel paradigma.
generic_user

4
In questo recente libro LASSO (gratuito online), la sezione 11.4 sembra affrontare questo problema. Non ho letto questo in dettaglio, ma le estremità introduzione dicendo "Dato [a LASSO che recupera correttamente il supporto di β * , possiamo stimare β * molto bene ... semplicemente effettuando una normale minimi quadrati regressione limitata a questo sottoinsieme. " β^ββ
GeoMatt22,

Risposte:


12

Qualche giorno fa c'era una domanda simile che aveva il riferimento pertinente:

  • Belloni, A., Chernozhukov, V. e Hansen, C. (2014) "Inferenza sugli effetti del trattamento dopo la selezione tra controlli ad alta dimensione", Review of Economic Studies, 81 (2), pagg. 608-50 ( link )

Almeno per me il documento è una lettura piuttosto difficile perché le prove dietro questa relativamente semplice sono abbastanza elaborate. Quando sei interessato a stimare un modello come

yio=αTio+Xio'β+εio

dove è il tuo risultato, T i è un effetto terapeutico di interesse e X i è un vettore di potenziali controlli. Il parametro target è α . Supponendo che la maggior parte della variazione del risultato sia spiegata dal trattamento e da una serie limitata di controlli, Belloni et al. (2014) sviluppano un doppio metodo di selezione che fornisce stime puntuali corrette e intervalli di confidenza validi. Questa ipotesi di scarsità è importante però.yioTioXioα

Se include alcuni importanti predittori di y i ma non sai quali siano (variabili singole, polinomi di ordine superiore o interazioni con altre variabili), puoi eseguire una procedura di selezione in tre passaggi:Xioyio

  1. regresso su X i , le loro piazze, e le interazioni, e selezionare importanti predittori utilizzando LASSOyioXio
  2. regredisci su X i , i loro quadrati e interazioni e seleziona importanti predittori usando LASSOTioXio
  3. regredire su T i e tutte le variabili che sono state selezionate in uno dei primi due passaggiyioTio

Forniscono prove del perché questo funziona e perché si ottengono gli intervalli di confidenza corretti, ecc. Da questo metodo. Mostrano anche che se si esegue solo una selezione LASSO sulla regressione di cui sopra e quindi si regredisce il risultato sul trattamento e le variabili selezionate si ottengono stime errate dei punti e intervalli di falsa fiducia, come già detto da Björn.

Lo scopo è duplice: il confronto tra il modello iniziale, in cui la selezione delle variabili è stata guidata da intuizione o teoria, con il modello di selezione a doppia robustezza ti dà un'idea di quanto fosse buono il tuo primo modello. Forse il tuo primo modello ha dimenticato alcuni importanti termini al quadrato o di interazione e quindi soffre di una forma funzionale non specificata o di variabili omesse. In secondo luogo, la Belloni et al. Il metodo (2014) può migliorare l'inferenza sul parametro target perché i regressori ridondanti sono stati penalizzati nella loro procedura.


Stime puntuali "corrette"?
Richard Hardy,

3

Eseguire una selezione di variabili e quindi eseguire nuovamente un'analisi, come se non fosse avvenuta alcuna selezione di variabili e il modello selezionato fosse inteso dall'inizio, in genere porta a dimensioni esagerate dell'effetto, valori p non validi e intervalli di confidenza con copertura nominale inferiore. Forse se la dimensione del campione è molto grande e ci sono alcuni effetti enormi e molti effetti nulli, LASSO + OLS potrebbe non essere influenzato troppo gravemente da questo, ma a parte questo non riesco a vedere alcuna giustificazione ragionevole e in quel caso il LASSO anche le stime dovrebbero andare bene.


1
Ma perché il secondo modello parte da zero come se non fosse avvenuta alcuna selezione di variabili? LASSO non seleziona la variabile esplicativa con il miglior potere predittivo? A proposito, ho pensato di rifare la gloria variabile variabile LASSO in glm. Ora ho capito che LASSO di per sé è una regressione.
SIslam,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.