LASSO per modelli esplicativi: parametri ridotti o no?

Sto conducendo un'analisi in cui l'obiettivo principale è comprendere i dati. Il set di dati è abbastanza grande per la convalida incrociata (10k) e i predittori includono variabili continue e fittizie e il risultato è continuo. L'obiettivo principale era vedere se ha senso eliminare alcuni predittori, al fine di rendere il modello più facile da interpretare.

Domande:

La mia domanda è "quali vari spiegano il risultato e sono una parte" abbastanza forte "di quella spiegazione". Ma per selezionare il parametro lambda per il lazo, si usa la convalida incrociata, vale a dire la validità predittiva come criterio. Quando si fa l'inferenza, la validità predittiva è un proxy abbastanza buono per la domanda generale che sto ponendo?
Supponiamo che LASSO abbia mantenuto solo 3 su 8 predittori. E ora mi chiedo: "che effetto hanno questi sul risultato". Ad esempio, ho trovato una differenza di genere. Dopo il restringimento del lazo, il coefficiente suggerisce che le donne ottengono 1 punto in più rispetto agli uomini. Ma senza il restringimento (cioè, sul set di dati effettivo), ottengono 2,5 punti in più.
- Quale prenderei come il mio "reale" effetto di genere? Andando solo per validità predittiva, sarebbe il coefficiente ridotto.
- O in un contesto, dire che sto scrivendo un rapporto per le persone non ben informate nelle statistiche. Quale coefficiente dovrei riferire loro?

lasso explanatory-models

— mbokulic
fonte

Che tipo di modello stai guardando? Modello lineare, logistico, poisson, ecc.?

— TrynnaDoStat,

È un modello lineare, ma non penso che faccia la differenza per la domanda

— mbokulic

Se il tuo obiettivo è stimare con precisione i parametri nel tuo modello, allora quanto sei vicino al modello vero è come dovresti selezionare il tuo modello. La validità predittiva tramite convalida incrociata è un modo per farlo ed è il modo preferito per selezionare nella regressione LASSO. $^*$ $\lambda$

Ora, per rispondere alla domanda su quale stima del parametro è la "stima reale", si dovrebbe guardare quale parametro è "il più vicino" al valore del parametro reale. "Più vicino" significa le stime dei parametri che minimizzano la distorsione? In tal caso, lo stimatore meno quadrato è imparziale nella regressione lineare. Più vicino significa la stima dei parametri che minimizza l'errore quadratico medio (MSE)? Quindi si può dimostrare che esiste una specifica di regressione della cresta che fornisce stime che minimizzano l'MSE (simile a LASSO, la regressione della cresta riduce le stime dei parametri verso zero ma, a differenza di LASSO, le stime dei parametri non raggiungono lo zero). Allo stesso modo, $\lambda$ ). Come statistico, devi determinare qual è la stima "migliore" e segnalarla (preferibilmente con qualche indicazione sulla fiducia della stima) a coloro che non sono esperti di statistica. Ciò che è "migliore" può essere o meno una stima distorta.

La glmnetfunzione in R fa un buon lavoro nel selezionare buoni valori di e, in sintesi, selezionare attraverso la validazione incrociata e riportare le stime dei parametri è un modo perfettamente ragionevole per stimare il valore "reale" dei parametri. $\lambda$ $\lambda$

$^*$ Un modello LASSO bayesiano che seleziona per probabilità marginale è preferito da alcuni ma sto, forse erroneamente, supponendo che tu stia facendo un modello LASSO frequentista. $\lambda$

— TrynnaDoStat
fonte

Che cosa intendevi con "distorsione" in "le stime dei parametri che minimizzano la distorsione"? E leggo correttamente il resto se lo leggo in questo modo: dovrei scegliere il modello che ha il MSE stimato fuori campione più basso (ovvero, in convalida incrociata)? Dal momento che la cresta è fuori discussione poiché voglio una matrice di coefficienti sparsi, riportare i coefficienti di lazo

— ridotti

λ

$\lambda$

interessante, non ci ho mai pensato in quel modo. Ancora una volta devo chiederti se ti ho capito correttamente. Quindi la regressione lineare ti dà la stima più imparziale dei coefficienti di popolazione (l'esempio "2,5 punti più alti" nella mia domanda originale). Considerando regr. Lazo o cresta. minimizzare MSE fuori campione. In tal caso, se si desidera solo comprendere (non prevedere), la regressione lineare sembra migliore, sebbene si desideri comunque semplificare il modello con, ad esempio, metodi graduali.

— mbokulic,

le risposte qui sono utili. Suggeriscono che gli OLS (regressione lineare) abbiano le prestazioni bast nel campione, mentre il lazo è per il fuori campione. Inoltre, suggeriscono che OLS può essere utilizzato sull'insieme limitato di predittori individuati dal lazo. Questo è esattamente ciò che ha senso per il mio obiettivo interpretativo, anche se le stime OLS si adattano leggermente.

— mbokulic,