Pena di ponte contro regolarizzazione della rete elastica


22

Alcune funzioni e approssimazioni di penalità sono ben studiate, come il LASSO ( ) e il Ridge ( ) e come si confrontano nella regressione.L1L2

Ho letto della penalità Bridge, che è la penalità generalizzata . Confrontalo con il LASSO, che ha \ gamma = 1 , e il Ridge, con \ gamma = 2 , rendendoli casi speciali. γ = 1 γ = 2βjγγ=1γ=2

Wenjiang [ 1 ] ha confrontato la penalità Bridge quando γ1 con LASSO, ma non sono riuscito a trovare un confronto con la regolarizzazione della rete elastica, una combinazione delle penalità LASSO e Ridge, dato come λ2β2+λ1β1 .

Questa è una domanda interessante perché la rete elastica e questo ponte specifico hanno forme di vincolo simili. Confronta questi cerchi unitari usando le diverse metriche ( p è il potere della distanza di Minkowski ):

L'unità circola per diversi poteri della distanza di Minkowski

p=1 corrisponde a LASSO, p=2 a Ridge e p=1.4 a un possibile Bridge. La rete elastica è stata generata con uguale ponderazione sulle penalità L1 e L2 . Queste cifre sono utili per identificare la scarsità, ad esempio (a cui Bridge chiaramente manca mentre Elastic Net lo preserva da LASSO).

Quindi, come fa il Bridge con 1<γ<2 confrontarsi con la rete elastica per quanto riguarda la regolarizzazione (oltre alla sparsità)? Ho un interesse particolare per l'apprendimento supervisionato, quindi forse è pertinente una discussione sulla selezione / ponderazione delle caratteristiche. Anche l'argomentazione geometrica è benvenuta.

Forse, più importante, la rete elastica è sempre più desiderabile in questo caso?


[1] Fu, WJ (1998). Regressioni penalizzate: il ponte contro il lazo. Giornale di statistiche computazionali e grafiche, 7 (3), 397-416.


EDIT: C'è questa domanda Come decidere quale misura di penalità usare? eventuali linee guida generali o regole del pollice fuori dal manuale che menzionano superficialmente LASSO, Ridge, Bridge e Elastic Net, ma non ci sono tentativi di confrontarle.


4
Correlato solo tangenzialmente, ma se la penalità della norma è la stima MAP di una regressione bayesiana con priori di Laplace indipendenti su coefficienti e la è la stessa per i priori gaussiani, mi chiedo se la penalità di Bridge sia equivalente a una Subbotin precedente ... stats.stackexchange.com/questions/201038/…L 2L1L2
Sycorax dice

@RichardHardy Non è necessario scrivere il lazo in tutte le capitali, vedere il mio commento qui .
ameba dice Reinstate Monica il

2
Tieni presente che la regressione di Bridge consente che fornisce una regressione non convessa. Questi sono utili in particolare quando si cerca di selezionare gruppi di covariate, soprattutto da dati sparsi. O in generale potresti avere gruppi predefiniti di covariate, che dovresti regolarizzare modo che nessun gruppo particolare sia grande, e quindi regolarizzare i coefficienti di singolo gruppo per ottenere la scarsità. Vale a dire se scrivi , dove allora potresti fare . L 2 L 1 β = ( a 1 , , un k ) un i = ( β i 1 , β i 2 , , , β i r ) λ 1β γ i + λ 2 Σ ia i ν iγ<1L2L1β=(a1,,ak)ai=(βi1,βi2,,,βir)λ1βγi+λ2iaiνi
Alex R.

@AlexR. In realtà dovrei chiarire che mi riferisco a . Non sapevo che fosse anche chiamato Bridge. γ < 1γ1γ<1
Firebug

1
@amoeba, ok, bene. Normalmente non modifico se l'uso delle maiuscole è coerente in tutto il post, ma questa volta c'erano sia "LASSO" che "lasso", quindi ho semplicemente scelto "LASSO" che era la prima forma del post. Penso sempre all'acronimo, ecco perché ho usato tutte le maiuscole; ma come dici tu, un semplice "lazo" potrebbe essere migliore.
Richard Hardy,

Risposte:


20

In che modo la regressione del ponte e la rete elastica differiscono è una domanda affascinante, date le loro penalità simili. Ecco un possibile approccio. Supponiamo di risolvere il problema di regressione del bridge. Possiamo quindi chiedere in che modo la soluzione di rete elastica differirebbe. Osservare i gradienti delle due funzioni di perdita può dirci qualcosa al riguardo.

Regressione del ponte

Supponiamo che sia una matrice che contiene i valori della variabile indipendente ( punti x dimensioni ), è un vettore contenente i valori della variabile dipendente e è il vettore del peso.n d y wXndyw

La funzione di perdita penalizza la norma dei pesi, con magnitudine :λ bqλb

Lb(w)=yXw22+λbwqq

Il gradiente della funzione di perdita è:

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)

i v c i sgn ( w ) w qvc indica il potere Hadamard (cioè l'elemento-saggio), che dà un vettore il cui elemento è . è la funzione del segno (applicata a ciascun elemento di ). Il gradiente può essere indefinito a zero per alcuni valori di .ivicsgn(w)wq

Rete elastica

La funzione di perdita è:

Le(w)=yXw22+λ1w1+λ2w22

Ciò penalizza la norma dei pesi con magnitudine e la norma con magnitudine . La carta a rete elastica chiama minimizzando questa funzione di perdita la "rete elastica ingenua" perché riduce doppiamente i pesi. Descrivono una procedura migliorata in cui i pesi vengono successivamente riscalati per compensare il doppio restringimento, ma ho intenzione di analizzare la versione ingenua. Questo è un avvertimento da tenere a mente.λ 1 2 λ 21λ12λ2

Il gradiente della funzione di perdita è:

wLe(w)=2XT(yXw)+λ1sgn(w)+2λ2w

Il gradiente non è definito a zero quando perché il valore assoluto nella penalità non è differenziabile lì.1λ1>01

Approccio

Supponiamo di selezionare pesi che risolvono il problema della regressione del ponte. Ciò significa che il gradiente di regressione del ponte è zero a questo punto:w

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)=0

Perciò:

2XT(yXw)=λbq|w|(q1)sgn(w)

Possiamo sostituirlo nel gradiente della rete elastica, per ottenere un'espressione per il gradiente della rete elastica in . Fortunatamente, non dipende più direttamente dai dati:w

wLe(w)=λ1sgn(w)+2λ2wλbq|w|(q1)sgn(w)

Osservando il gradiente della rete elastica in ci dice: dato che la regressione del ponte si è convertita in pesi , in che modo la rete elastica vorrebbe cambiare questi pesi?w ww

Ci dà la direzione locale e l'entità del cambiamento desiderato, perché il gradiente punta nella direzione della salita più ripida e la funzione di perdita diminuirà man mano che ci spostiamo nella direzione opposta al gradiente. Il gradiente potrebbe non puntare direttamente verso la soluzione di rete elastica. Tuttavia, poiché la funzione di perdita netta elastica è convessa, la direzione / magnitudine locale fornisce alcune informazioni su come la soluzione di rete elastica differirà dalla soluzione di regressione del ponte.

Caso 1: controllo della sanità mentale

( ). La regressione del ponte in questo caso equivale ai minimi quadrati ordinari (OLS), poiché l'entità della penalità è zero. La rete elastica è la regressione della cresta equivalente, poiché solo la norma è penalizzata. I grafici seguenti mostrano diverse soluzioni di regressione del ponte e il comportamento del gradiente netto elastico per ciascuno.2λb=0,λ1=0,λ2=12

inserisci qui la descrizione dell'immagine

Tracciato a sinistra: gradiente netto elastico vs. peso di regressione del ponte lungo ogni dimensione

L'asse x rappresenta un componente di un insieme di pesi selezionato dalla regressione del ponte. L'asse y rappresenta il componente corrispondente del gradiente netto elastico, valutato in . Si noti che i pesi sono multidimensionali, ma stiamo solo osservando i pesi / gradiente lungo una singola dimensione.w ww

Trama corretta: modifiche nette elastiche ai pesi di regressione del ponte (2d)

Ogni punto rappresenta un insieme di pesi 2d selezionati dalla regressione del ponte. Per ogni scelta di , viene tracciato un vettore che punta nella direzione opposta al gradiente netto elastico, con magnitudine proporzionale a quella del gradiente. Cioè, i vettori tracciati mostrano come la rete elastica vuole cambiare la soluzione di regressione del ponte.w ww

Questi grafici mostrano che, rispetto alla regressione del ponte (OLS in questo caso), la rete elastica (regressione della cresta in questo caso) vuole ridurre i pesi verso lo zero. La quantità desiderata di restringimento aumenta con l'entità dei pesi. Se i pesi sono zero, le soluzioni sono le stesse. L'interpretazione è che vogliamo muoverci nella direzione opposta al gradiente per ridurre la funzione di perdita. Ad esempio, supponiamo che la regressione del ponte sia stata convertita in un valore positivo per uno dei pesi. Il gradiente della rete elastica è positivo a questo punto, quindi la rete elastica vuole ridurre questo peso. Se utilizziamo la discesa gradiente, prenderemmo passi proporzionali in dimensione al gradiente (ovviamente, non possiamo tecnicamente usare la discesa gradiente per risolvere la rete elastica a causa della non differenziabilità a zero,

Caso 2: ponte coordinato e rete elastica

( ). Ho scelto i parametri di penalità del ponte per abbinare l'esempio della domanda. Ho scelto i parametri della rete elastica per fornire la migliore penalità della rete elastica corrispondente. Qui, i mezzi più adatti, data una particolare distribuzione dei pesi, troviamo i parametri di penalità della rete elastica che minimizzano la differenza quadrata prevista tra il ponte e le penalità della rete elastica:q=1.4,λb=1,λ1=0.629,λ2=0.355

minλ1,λ2E[(λ1w1+λ2w22λbwqq)2]

Qui, ho considerato i pesi con tutte le voci tratte dalla distribuzione uniforme su (cioè all'interno di un ipercubo centrato sull'origine). I parametri della rete elastica più adatti erano simili per 2 a 1000 dimensioni. Sebbene non appaiano sensibili alla dimensionalità, i parametri con la migliore corrispondenza dipendono dalla scala della distribuzione.[2,2]

Penalità

Ecco un diagramma di contorno della penalità totale imposta dalla regressione del ponte ( ) e dalla rete elastica con la migliore corrispondenza ( ) in funzione dei pesi (per il caso 2d ):q=1.4,λb=100λ1=0.629,λ2=0.355

inserisci qui la descrizione dell'immagine

Comportamento gradiente

inserisci qui la descrizione dell'immagine

Possiamo vedere quanto segue:

  • Sia il peso di regressione del ponte scelto lungo la dimensione .wjj
  • Se , la rete elastica vuole ridurre il peso verso lo zero.|wj|<0.25
  • Se , la regressione del ponte e le soluzioni di rete elastica sono le stesse. Ma la rete elastica vuole allontanarsi se il peso differisce anche leggermente.|wj|0.25
  • Se , la rete elastica vuole aumentare il peso.0.25<|wj|<1.31
  • Se , la regressione del ponte e le soluzioni di rete elastica sono le stesse. La rete elastica vuole spostarsi verso questo punto dai pesi vicini.|wj|1.31
  • Se , la rete elastica vuole ridurre il peso.|wj|>1.31

I risultati sono qualitativamente simili se cambiamo il valore di e / o e troviamo il corrispondente corrispondente . I punti in cui le soluzioni del ponte e della rete elastica coincidono leggermente cambiano, ma il comportamento dei gradienti è altrimenti simile.qλbλ1,λ2

Caso 3: ponte non accoppiato e rete elastica

λ 1 , λ 2 1 2(q=1.8,λb=1,λ1=0.765,λ2=0.225) . In questo regime, la regressione del ponte si comporta in modo simile alla regressione della cresta. Ho trovato il la migliore corrispondenza , ma poi li ho scambiati in modo che la rete elastica si comporti più come un lazo ( penalità maggiore di ).λ1,λ212

inserisci qui la descrizione dell'immagine

Rispetto alla regressione del ponte, la rete elastica vuole ridurre i pesi piccoli verso zero e aumentare i pesi più grandi. C'è un singolo insieme di pesi in ciascun quadrante in cui la regressione del ponte e le soluzioni di rete elastica coincidono, ma la rete elastica vuole allontanarsi da questo punto se i pesi differiscono anche leggermente.

1 q > 1 λ 1 , λ 2 2 1(q=1.2,λb=1,λ1=173,λ2=0.816) . In questo regime, la penalità del bridge è più simile a una penalità (sebbene la regressione del bridge potrebbe non produrre soluzioni sparse con , come menzionato nel documento sulla rete elastica). Ho trovato il la migliore corrispondenza , ma poi li ho scambiati in modo che la rete elastica si comporti più come una regressione della cresta ( penalità maggiore della penalità ).1q>1λ1,λ221

inserisci qui la descrizione dell'immagine

Rispetto alla regressione del ponte, la rete elastica vuole far crescere piccoli pesi e ridurre pesi più grandi. C'è un punto in ogni quadrante in cui la regressione del ponte e le soluzioni di rete elastica coincidono e la rete elastica vuole spostarsi verso questi pesi dai punti vicini.


3
(+1) Ottima risposta, grazie per lo sforzo! Potresti affrontare un'ultima cosa: "la rete elastica è sempre più desiderabile?". Non c'è bisogno di essere lunghi;
Firebug,

6
La regressione del ponte e la rete elastica sono equivalenti alla stima MAP con diversi tipi di priori sui pesi. Da questo punto di vista, sembra che la scelta migliore sarebbe quella precedente che corrisponda meglio al processo di generazione dei dati e che nessuno dei due metodi potrebbe essere migliore in tutti i casi.
user20160

2
+6, risposta molto bella. Per quanto riguarda il tuo commento sopra: quale precedente produce la regressione del bridge? So che il priore gaussiano corrisponde alla cresta e al Laplace prima del lazo. Si può in qualche modo combinare questi priori per ottenere qualcosa che corrisponda alla rete elastica?
ameba dice Reinstate Monica il

2
@amoeba La domanda non era rivolta a me, lo so, ma come ha detto GeneralAbrial nella domanda, il bridge probabilmente corrisponde a un precedente di Subbotin. La rete elastica, come previsto, è tra priori gaussiani e lapponi. Vedi Li, Q., & Lin, N. (2010). La rete elastica bayesiana. Analisi bayesiana, 5 (1), 151-170. e Zou, H., & Hastie, T. (2005). Regolarizzazione e selezione variabile tramite la rete elastica. Giornale della Royal Statistical Society: Serie B (Metodologia statistica), 67 (2), 301-320. per un breve confronto tra la rete elastica e la regressione del ponte.
Firebug

2
@amoeba grazie per la generosità e per aver attirato l'attenzione su questo post, allo stesso modo per l'altro post sulla riduzione della dimensionalità PCA vs non lineare. È ammirevole che tu usi il tuo rappresentante per promuovere le domande / risposte degli altri, e mi fa piacere che questo post abbia almeno un piccolo valore per le persone. Altri, grazie anche per le belle parole.
user20160
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.