Perché utilizzare le stime Lasso rispetto alle stime OLS sul sottoinsieme di variabili identificato da Lasso?


26

Per regressione Lazo supponiamo che la soluzione migliore (ad esempio un errore minimo di test) selezioni funzioni, in modo che \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ right) .

L(β)=(Xβy)(Xβy)+λβ1,
kβ^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)

Sappiamo che (β^1lasso,β^2lasso,...,β^klasso) è un stima distorta di (β1,β2,...,βk) , quindi perché prendiamo ancora β^lasso come soluzione finale, anziché la più "ragionevole" β^new=(β^1:knew,0,...,0) , dove β^1:knew è la stima LS dal modello parziale Lnew(β1:k)=(X1:kβy)(X1:kβy) . ( X1:k indica le colonne di X corrispondenti alle k caratteristiche selezionate).

In breve, perché utilizziamo Lazo sia per la selezione delle funzioni che per la stima dei parametri, anziché solo per la selezione delle variabili (e lasciando la stima sulle caratteristiche selezionate su OLS)?

(Inoltre, cosa significa che 'Lazo può selezionare al massimo n funzioni'? n è la dimensione del campione.)


1
Questa è un'ottima domanda. Hai provato alcune simulazioni per vedere quanto sarebbero diversi i risultati dallo standard Lasso se uno lo provasse a modo tuo?
Placidia,

3
Hai capito lo scopo di "Restringimento" in LASSO?
Michael M,

6
L'idea è di ridurre le stime dei coefficienti proprio perché hai scelto quelle più grandi. Le stime dei minimi quadrati non sono più imparziali dopo aver effettuato la selezione delle funzioni in anticipo.
Scortchi - Ripristina Monica

2
Vedere la seguente domanda per un'ottima risposta a "Quale problema risolvono i metodi di contrazione?" stats.stackexchange.com/questions/20295/…
DL Dahly

2
Per essere chiari: non dire che @Scortchi è sbagliato, ma questo è un po 'una zona grigia quando si discute della selezione delle funzionalità, e penso che questo sia un punto tecnico importante che dovrebbe essere chiarito.
Giovanni,

Risposte:


27

Non credo che ci sia qualcosa di sbagliato nell'usare LASSO per la selezione delle variabili e poi nell'utilizzare OLS. Da " Elements of Statistical Learning " (pag. 91)

... il restringimento del lazo fa sì che le stime dei coefficienti diversi da zero siano distorte verso lo zero e in generale non sono coerenti [ Nota aggiunta: ciò significa che, con l'aumentare della dimensione del campione, le stime dei coefficienti non convergono] . Un approccio per ridurre questo pregiudizio consiste nell'eseguire il lazo per identificare l'insieme di coefficienti diversi da zero e quindi adattare un modello lineare non limitato all'insieme di caratteristiche selezionato. Questo non è sempre possibile, se il set selezionato è grande. In alternativa, è possibile utilizzare il lazo per selezionare l'insieme di predittori diversi da zero, quindi applicare nuovamente il lazo, ma utilizzando solo i predittori selezionati dal primo passaggio. Questo è noto come lazo rilassato(Meinshausen, 2007). L'idea è di utilizzare la convalida incrociata per stimare il parametro di penalità iniziale per il lazo, quindi di nuovo per un secondo parametro di penalità applicato all'insieme selezionato di predittori. Poiché le variabili nella seconda fase hanno meno "concorrenza" rispetto alle variabili del rumore, la convalida incrociata tenderà a scegliere un valore inferiore per [parametro di penalità], e quindi i loro coefficienti saranno ridotti di meno rispetto a quelli nella stima iniziale.λ

Un altro approccio ragionevole simile nello spirito al lazo rilassato sarebbe quello di utilizzare il lazo una volta (o più volte in tandem) per identificare un gruppo di variabili predittive candidate. Quindi utilizzare la regressione dei migliori sottoinsiemi per selezionare le migliori variabili predittive da considerare (vedere anche "Elementi di apprendimento statistico" per questo). Affinché ciò funzioni, è necessario perfezionare il gruppo di predittori candidati fino a circa 35, il che non sarà sempre fattibile. È possibile utilizzare la convalida incrociata o AIC come criterio per evitare un eccesso di adattamento.


Un'altra parte della mia domanda è: perché "Lazo può selezionare al massimo n funzioni"? Se questo è il caso, penso che OLS sulle funzionalità selezionate sarà almeno "buono", poiché OLS è il "BLU" (non strettamente BLU poiché è per lo più di parte). Basta considerare una situazione estrema in cui Lasso seleziona le caratteristiche esatte, condurre OLS su queste funzionalità ripristinerà il modello reale, che penso sia migliore della stima di Lasso.
yliueagle,

2
Il problema è che è molto improbabile che si verifichi questa "situazione estrema", e non c'è modo di sapere se LASSO ha selezionato esattamente le caratteristiche giuste. Se LASSO seleziona troppe funzionalità, penso che il modello OLS completo potrebbe avere prestazioni peggiori rispetto alle stime di LASSO. Allo stesso modo, la regressione della cresta può superare OLS se ci sono troppe funzionalità (ovvero OLS è troppo adatto).
Alex Williams,

2
Vedi anche web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf , la fine della Sezione 2.2: "[...] i minimi quadrati che si adattano al sottoinsieme [...] dei predittori tendono ad espandere le stime del lazo lontano da zero. Le stime diverse da zero del lazo tendono ad essere distorte verso lo zero, quindi il debiasing nel pannello di destra può spesso migliorare l'errore di predizione del modello. Questo processo in due fasi è anche noto come lazo rilassato (Meinshausen 2007) ".
ameba dice di reintegrare Monica

1
Ho esaminato il documento di Meinshausen e in realtà mi consiglia di inserire due parametri di penalità, come descritto nella citazione originale di The Elements. +1
ameba dice di reintegrare Monica

@AlexWilliams Ma nel paragrafo precedente non esiste un'ipotesi di scarsità sulla correlazione tra l'insieme selezionato e ciò che viene rimosso essendo piccolo?
Dimitriy V. Masterov,

15

Se il tuo obiettivo è ottenere prestazioni ottimali nel campione (rispetto al massimo R al quadrato), usa semplicemente OLS su ogni variabile disponibile. La caduta di variabili ridurrà R al quadrato.

Se il tuo obiettivo è una buona prestazione fuori campione (che di solito è molto più importante), la tua strategia proposta soffrirà di due fonti di overfitting:

  • Selezione di variabili in base alle correlazioni con la variabile di risposta
  • Stime OLS

Lo scopo di LASSO è ridurre le stime dei parametri verso lo zero per combattere oltre due fonti di overfitting. Le previsioni nel campione saranno sempre peggiori dell'OLS, ma la speranza è (a seconda della forza della penalizzazione) di ottenere un comportamento fuori campione più realistico.

Riguardo a : questo (probabilmente) dipende dall'implementazione di LASSO che stai usando. Una variante, Lars (regressione dell'angolo minimo), funziona facilmente per p > n .p>np>n


2
Il "Leekasso" (scegli sempre 10 coefficienti) è diverso dalla proposta della domanda (rivaluta OLS con k predittori scelti da LASSO)
Affine

@affine hai perfettamente ragione. Ho rimosso il riferimento.
Michael M,

2
Sembra ragionevole, ma gli inventori di Lasso sostengono il contrario e in realtà raccomandano di usare la procedura in due fasi con OLS sul sottoinsieme identificato da Lasso (come suggerito dall'OP), vedi la risposta di @ Alex.
ameba dice di reintegrare Monica

Mi piace questa risposta perché menziona la distorsione della selezione dalla ricerca stessa; sembra che ci dovrebbe essere una penalità aggiuntiva. LASSO come mero meccanismo di selezione di sottogruppi - è tutto qui? Allora perché persino stampare i suoi coefficienti?
Ben Ogorek,

3

Per quanto riguarda la domanda dei PO del perché Lasso può selezionare al massimo n funzioni:

Considera perché un OLS potrebbe essere distorto: questo è quando ci sono più predittori ( p ) che osservazioni ( n ). Pertanto dimensioni [p, p] in β = ( X T X ) - 1 X T YXTXβ=(XTX)-1XTY . Prendere un'inverso di tale matrice non è possibile (può essere singolare).

Il lazo è costretto a ridurre i coefficienti delle variabili in modo che ciò non accada, quindi non seleziona mai più di n caratteristiche in modo che sia sempre invertibile.XTX


1
(XTX)-1
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.