Perché il Lazo fornisce una selezione variabile?


76

Ho letto Elements of Statistical Learning e vorrei sapere perché il Lazo fornisce una selezione variabile e la regressione della cresta no.

Entrambi i metodi riducono al minimo la somma residua di quadrati e hanno un vincolo sui possibili valori dei parametri β . Per il Lazo, il vincolo è ||β||1t , mentre per la cresta è ||β||2t , per alcuni t .

Ho visto l'immagine del diamante contro l'ellisse nel libro e ho alcune intuizioni sul perché il Lazo può colpire gli angoli della regione vincolata, il che implica che uno dei coefficienti è impostato su zero. Tuttavia, il mio intuito è piuttosto debole e non ne sono convinto. Dovrebbe essere facile da vedere, ma non so perché sia ​​vero.

Quindi immagino di essere alla ricerca di una giustificazione matematica o di una spiegazione intuitiva del motivo per cui i contorni della somma residua dei quadrati potrebbero colpire gli angoli del ||β||1 regione vincolata (mentre questa situazione è improbabile se il vincolo è ||β||2 ).


Tutte le risposte di seguito sono buone spiegazioni. Ma ho pubblicato un articolo con rappresentazione visiva. Di seguito è riportato il link medium.com/@vamsi149/…
solver149

Risposte:


70

y=βx+eβ^e^

minyTy2yTxβ^+β^xTxβ^+2λ|β^|

Supponiamo che la soluzione dei minimi quadrati sia un po ' , che equivale a supporre che , e vediamo cosa succede quando aggiungiamo la penalità L1. Con , , quindi il termine di penalità è uguale a . La derivata della funzione obiettivo wrt è:β^>0yTx>0β^>0|β^|=β^2λββ^

2yTx+2xTxβ^+2λ

che evidentemente ha una soluzione . β^=(yTxλ)/(xTx)

Ovviamente aumentando possiamo portare a zero (in ). Tuttavia, una volta che , l'aumento di non lo renderà negativo, perché, scrivendo vagamente, l'istante diventa negativo, la derivata della funzione obiettivo cambia in:λβ^λ=yTxβ^=0λβ^

2yTx+2xTxβ^2λ

dove il ribaltamento nel segno di è dovuto alla natura del valore assoluto della pena; quando diventa negativo, il termine di penalità diventa uguale a , e prendere il wrt derivato risulta in . Questo porta alla soluzione , che è ovviamente incompatibile con (dato che la soluzione dei minimi quadrati , che implica eλβ2λββ2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0). C'è un aumento della penalità L1 E un aumento del termine di errore al quadrato (poiché ci stiamo spostando più lontano dalla soluzione dei minimi quadrati) quando si sposta da a , quindi non lo facciamo, abbiamo solo resta su .β^0<0β^=0

Dovrebbe essere intuitivamente chiaro che si applica la stessa logica, con opportune modifiche ai segni, per una soluzione dei minimi quadrati con . β^<0

Con la penalità dei minimi quadrati , tuttavia, la derivata diventa:λβ^2

2yTx+2xTxβ^+2λβ^

che evidentemente ha una soluzione . Ovviamente nessun aumento di porterà questo a zero. Quindi la penalità L2 non può agire come uno strumento di selezione variabile senza qualche moderato annuncio come "imposta la stima del parametro uguale a zero se è inferiore a ". β^=yTx/(xTx+λ)λϵ

Ovviamente le cose possono cambiare quando si passa a modelli multivariati, ad esempio spostare una stima di un parametro potrebbe costringere un altro a cambiare segno, ma il principio generale è lo stesso: la funzione di penalità L2 non può portarti completamente a zero, perché, scrivendo in modo molto euristico, in effetti si aggiunge al "denominatore" dell'espressione per , ma la funzione di penalità L1 può, perché in effetti si aggiunge al "numeratore". β^


Lasso fornisce anche la selezione delle funzioni in caso di modelli non lineari, ad esempio NN?
Ilya,

Una piccola domanda di follow-up: Come può essere se è un vettore e è uno scalare che possiamo variare per trovare l'adattamento? λ=yTxyTxλ
Jekaterina Kokatjuhha,

Stavo usando un esempio univariato, quindi è uno scalare. Se stai risolvendo un problema multivariato, allora viene moltiplicato per un vettore di quelli con lunghezza = dimensione di o matrice di identità di dimensioni appropriate, a seconda del problema che viene risolto. Puoi risolverlo notando, ad esempio, che la norma L2 di = , e sostituendo le formule precedenti. yTxλβzzTIz
jbowman,

Sarebbe possibile mostrare (matematicamente?) Come il segno del lambda si ribalta a causa della natura assoluta della funzione di penalità poiché non sono in grado di seguire questo bit della logica.
user1420372,

@ user1420372 - hanno fatto; Fatemi sapere cosa ne pensate.
jbowman,

9

Supponiamo di avere un set di dati con y = 1 e x = [1/10 1/10] (un punto dati, due funzioni). Una soluzione è scegliere una delle funzionalità, un'altra è ponderare entrambe le funzionalità. Cioè possiamo scegliere w = [5 5] o w = [10 0].

Si noti che per la norma L1 entrambi hanno la stessa penalità, ma il peso più esteso ha una penalità inferiore per la norma L2.


8

Penso che ci siano già ottime risposte, ma solo per aggiungere un po 'di intuizione riguardo all'interpretazione geometrica:

"Il lazo esegue il restringimento di , in modo che ci siano" angoli "nel vincolo, che in due dimensioni corrisponde a un diamante. Se la somma dei quadrati" colpisce "uno di questi angoli, il coefficiente corrispondente all'asse viene ridotto a zero.L1

All'aumentare di , il diamante multidimensionale ha un numero crescente di angoli, quindi è molto probabile che alcuni coefficienti siano impostati pari a zero. Quindi, il lazo esegue il restringimento e la selezione (effettiva) del sottoinsieme.p

Contrariamente alla selezione del sottoinsieme, la cresta esegue un leggero limite: quando il parametro di livellamento viene variato, il percorso di campionamento delle stime si sposta continuamente su zero. "

Fonte: https://onlinecourses.science.psu.edu/stat857/book/export/html/137

L'effetto può essere facilmente visualizzato laddove le linee colorate sono i percorsi dei coefficienti di regressione che si riducono verso lo zero.

inserisci qui la descrizione dell'immagine

"La regressione della cresta riduce tutti i coefficienti di regressione verso lo zero; il lazo tende a fornire un insieme di coefficienti di regressione zero e porta a una soluzione sparsa."

inserisci qui la descrizione dell'immagine

Fonte: https://onlinecourses.science.psu.edu/stat857/node/158

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.