Scelta dell'intervallo e della densità della griglia per il parametro di regolarizzazione in LASSO


11

Nel frattempo sto studiando LASSO (operatore di ritiro e selezione assoluto minimo). Vedo che il valore ottimale per il parametro di regolarizzazione può essere scelto per convalida incrociata. Vedo anche nella regressione della cresta e in molti metodi che applicano la regolarizzazione, possiamo usare CV per trovare il parametro di regolarizzazione ottimale (dicendo pena). Ora la mia domanda riguarda i valori iniziali per il limite superiore e inferiore del parametro e come determinare la lunghezza della sequenza.

Per essere precisi, supponiamo di avere un problema LASSO e vogliamo trovare il valore ottimale per la penalità, . Quindi come possiamo scegliere un limite inferiore e superiore per ? e quante divisioni tra questi due valori ?

LogLikelihood=(yxβ)(yxβ)+λ|β|1
λλ[a=?,b=?](ba)k=?

Domanda correlata qui .
Richard Hardy,

Possibile duplicato della finezza
Sycorax dice Reinstate Monica

Risposte:


12

Questa metodologia è descritta nel documento glmnet Percorsi di regolarizzazione per modelli lineari generalizzati tramite discesa delle coordinate . Sebbene la metodologia qui sia per il caso generale della regolarizzazione sia che , dovrebbe applicarsi anche a LASSO (solo ).L1L2L1

La soluzione per il massimo è data nella sezione 2.5. λ

Quando , vediamo da (5) che rimarrà zero se . Quindiβ~=0β~j1N|xj,y|<λαNαλmax=maxl|xl,y|

Ossia, osserviamo che la regola di aggiornamento per beta impone a zero tutte le stime dei parametri per come determinato sopra.λ>λmax

La determinazione di e il numero di punti della griglia sembrano meno di principio. In glmnet impostano , quindi scelgono una griglia di punti equidistanti sulla scala logaritmica.λminλmin=0.001λmax100

Funziona bene in pratica, nel mio ampio uso di glmnet non ho mai trovato questa griglia troppo grezza.

Nel LASSO ( ) solo le cose funzionano meglio, poiché il metodo LARS fornisce un calcolo preciso per quando i vari predittori entrano nel modello. Un vero LARS non esegue una ricerca della griglia su , producendo invece un'espressione esatta per i percorsi della soluzione per i coefficienti. Ecco uno sguardo dettagliato al calcolo esatto dei percorsi dei coefficienti nel caso dei due predittori.L1λ

Il caso di modelli non lineari (ad es. Logistica, poisson) è più difficile. Ad un livello elevato, per prima cosa si ottiene un'approssimazione quadratica della funzione di perdita ai parametri iniziali , quindi il calcolo sopra è usato per determinare . In questi casi non è possibile un calcolo preciso dei percorsi dei parametri, anche quando viene fornita solo la regolarizzazione , quindi la ricerca della griglia è l'unica opzione.β=0λmaxL1

I pesi del campione complicano anche la situazione, i prodotti interni devono essere sostituiti in luoghi appropriati con prodotti interni ponderati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.