Norme Ridge e LASSO

12

Questo post segue questo: perché la stima della cresta diventa migliore di OLS aggiungendo una costante alla diagonale?

Ecco la mia domanda:

Per quanto ne so, la regolarizzazione della cresta usa un -norm (distanza euclidea). Ma perché usiamo il quadrato di questa norma? (un'applicazione diretta di risulterebbe con la radice quadrata della somma del beta quadrato). $\ell_2$ $\ell_2$

Per fare un confronto, non lo facciamo per LASSO, che usa un -norm per regolarizzare. Ma qui è la norma "reale" (solo la somma del quadrato dei valori assoluti beta e non il quadrato di questa somma). $\ell_1$ $\ell_1$

Qualcuno può aiutarmi a chiarire?

lasso regularization ridge-regression

— PLOTZ
fonte

2

Il termine di penalità nella regressione della cresta è la norma quadrata L2. Vedi queste diapositive scritte da Tibshirani come esempio (diapositiva 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf Vedi anche qui en.wikipedia.org/wiki/Tikhonov_regularization

— boscovich,

Piccolo punto di chiarimento, queste sono le diapositive di Ryan Tibshirani e non di Rob.

— Ellis Valentiner,

ok, grazie mille per il chiarimento. Ma non capisco perché al quadrato per L2 e non al quadrato per L1. Non abbiamo formule generali per nessun tipo di regolarizzazione?

— PLOTZ,

@ user12202013: grazie per averlo sottolineato. Non me ne sono accorto.

— boscovich,

9

Cresta e lazo sono due modi per regolarizzare e una regressione. La regressione del lazo impone un vincolo alla somma dei coefficienti assoluti:

$\sum_i \sqrt{\beta_i^2} = ||\beta||_1$

La regressione della cresta impone un vincolo della somma delle differenze quadrate:

$\sum_i \beta_i^2 = \sqrt{\sum_i \beta_i^2}^2 = ||\beta_i||_2^2$

Hai suggerito di introdurre anche un'altra norma, la lunghezza euclidea dei coefficienti:

$\sqrt{\sum_i \beta_i^2} = ||\beta_i||_2$

La differenza tra la regressione di Ridge e la lunghezza euclidea è la quadratura. Questo cambia l'interpretazione della regolarizzazione. Mentre sia la cresta che la lunghezza euclidea si regolarizzano verso lo zero, la regressione della cresta differisce anche dalla quantità di regolarizzazione. I coefficienti che sono più lontani da zero si spingono più forte verso zero. Questo lo rende più stabile intorno allo zero perché la regolarizzazione cambia gradualmente intorno allo zero. Questo non è il caso della lunghezza euclidea, o di fatto, della regressione del lazo.

— Pieter
fonte

7

Ci sono molti approcci penalizzati che ora hanno tutti i tipi di diverse funzioni di penalità (cresta, lazo, MCP, SCAD). La domanda sul perché una di una forma particolare è sostanzialmente "quali vantaggi / svantaggi offre una sanzione del genere?".

Le proprietà di interesse potrebbero essere:

1) stimatori quasi imparziali (si noti che tutti gli stimatori penalizzati saranno distorti)

2) Sparsità (la regressione della cresta della nota non produce risultati sparsi, cioè non riduce i coefficienti fino a zero)

3) Continuità (per evitare l'instabilità nella previsione del modello)

Queste sono solo alcune delle proprietà che potrebbero interessare in una funzione penalità.

È molto più facile lavorare con una somma in derivazioni e lavoro teorico: ad es. e . Immagina se avessimo $||\beta||_2^2=\sum |\beta_i|^2$ $||\beta||_1 = \sum |\beta_i|$ o. Prendere derivati (che è necessario per mostrare risultati teorici come coerenza, normalità asintotica ecc.) Sarebbe un dolore con sanzioni del genere. $\sqrt{\left(\sum |\beta_i|^2\right)}$ $\left( \sum |\beta_i|\right)^2$

— bdeonovic
fonte

ok grazie. Ma perché al quadrato per L2 e non al quadrato per L1? Non abbiamo formule generali per nessun tipo di regolarizzazione? Questo mi sta sconcertando ...

— PLOTZ,

@PLOTZ Ho aggiunto un po 'alla mia risposta.

— bdeonovic,

Grazie mille Benjamin! Di sicuro ora è più chiaro! Non ho ottenuto questo scopo teorico prima della tua risposta. Mille grazie per la tua risposta.

— PLOTZ,

@Benjamin: al punto 1 intendevi veramente "( non tutti gli stimatori penalizzati saranno imparziali)"? La regressione della cresta - solo per nominarne una - è di parte.

— boscovich,

spero sì grazie per averlo catturato! Penso che in effetti tutti gli stimatori penalizzati saranno di parte.

— bdeonovic,

5

$\ell_2$ $\ell_1$ $\|\boldsymbol{\beta}\|_p^p$ $p > 0$

La regressione di Ridge utilizza quindi e il Lazo ma si possono usare altri valori di . $p=2$ $p=1$ $p$

Ad esempio, hai una soluzione sparsa per tutti i valori di e minore è il valore di più parsimoniosa è la soluzione. $p \leq 1$ $p$

Per i valori di tuo obiettivo non è più fluido, quindi l'ottimizzazione diventa più difficile; per l'obiettivo non è convesso e quindi l'ottimizzazione ancora più difficile ... $p \leq 1$ $p<1$

— Tonio Bonnef
fonte

2

Credo che qui ci sia una risposta ancora più semplice, anche se quando si sviluppa una tecnica è sempre difficile rispondere alle domande "perché". Il quadrato -norm viene utilizzato in modo che il termine di regolarizzazione sia facilmente differenziabile. La regressione della cresta minimizza: $l_2$

‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{2}^{2}

$\|\mathbf{y - X\beta}\|^2_2+\lambda\|\beta\|_2^2$

Che può anche essere scritto:

‖ y - X β ‖_{2}^{2} + λ β^{T} β

$\|\mathbf{y - X\beta}\|^2_2+\lambda\beta^T\beta$

Questo ora può essere facilmente differenziato wrt per ottenere la soluzione in formato chiuso: $\beta$

{\hat{β}}^{ridge} = (X^{T} X + λ I)^{- 1} X^{T} y

$\hat\beta^{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda I)^{-1}\mathbf{X}^T\mathbf{y}$

da cui si può derivare qualsiasi tipo di inferenza.

— Tim Atreides
fonte

1

Considera un'altra importante differenza tra l'uso del quadrato della norma (cioè la regressione della cresta) e la norma non modificata : la derivata della norma di , , at è data da e quindi non differenziabile sul vettore zero. Cioè, sebbene la norma non selezione di variabili individuali come il lazo, potrebbe teoricamente produrre come soluzione alla massima probabilità penalizzata. il $\ell_2$ $\ell_2$ $\ell_2$ $x$ $||x||_2$ $x$ $\frac{x}{ ||x||_2}$ $\ell_2$ $\beta=0$ $\ell_2$ norma nella penalità, la penalità di tipo cresta è differenziabile ovunque e non può mai fornire una soluzione del genere.

Questo comportamento è esattamente (secondo la mia comprensione) il motivo per cui il lazo di gruppo (Yuan e Lin) e il lazo di gruppo sparso (Simon, et al.), norma (su sottoinsiemi prespecificati dei coefficienti) invece del quadrato della norma . $\ell_2$ $\ell_2$

— psboonstra
fonte