La prova di formule equivalenti di regressione della cresta


15

Ho letto i libri più popolari nell'apprendimento statistico

1- Gli elementi dell'apprendimento statistico.

2- Un'introduzione all'apprendimento statistico .

Entrambi menzionano che la regressione della cresta ha due formule equivalenti. Esiste una comprensibile prova matematica di questo risultato?

Ho anche esaminato Cross Validated , ma non riesco a trovare una prova definitiva lì.

Inoltre, LASSO godrà dello stesso tipo di prova?

inserisci qui la descrizione dell'immagine



1
Il lazo non è una forma di regressione della cresta.
Xi'an,

@jeza, potresti spiegarmi cosa manca nella mia risposta? Ne deriva che tutto può essere derivato dalla connessione.
Royi,

@jeza, potresti essere specifico? A meno che non si conosca il concetto lagrangiano di problema vincolato, è difficile dare una risposta concisa.
Royi

1
@jeza, un problema di ottimizzazione vincolata può essere convertito in ottimizzazione della funzione Lagrangiana / condizioni KKT (come spiegato nelle risposte attuali). Questo principio ha già molte diverse spiegazioni semplici su Internet. In quale direzione sono necessarie ulteriori spiegazioni della prova? Spiegazione / dimostrazione del moltiplicatore / funzione di Lagrangian, spiegazione / dimostrazione di come questo problema sia un caso di ottimizzazione relativo al metodo di Lagrange, differenza KKT / Lagrange, spiegazione del principio di regolarizzazione, ecc.?
Sesto Empirico

Risposte:


19

La classica regressione della cresta ( regolarizzazione di Tikhonov ) è data da:

argminx12xy22+λx22

L'affermazione sopra è che il seguente problema è equivalente:

argminxsubject to12xy22x22t

Definiamo come soluzione ottimale del primo problema e come soluzione ottimale del secondo problema. x^x~

La pretesa di equivalenza significa che . Vale a dire che puoi sempre avere una coppia di e tale che la soluzione del problema è la stessa.t,λ0:x^=x~ t À 0
tλ0

Come potremmo trovare un paio?
Bene, risolvendo i problemi e osservando le proprietà della soluzione.
Entrambi i problemi sono convessi e regolari, quindi dovrebbe rendere le cose più semplici.

La soluzione per il primo problema è data dal punto in cui il gradiente svanisce, il che significa:

x^y+2λx^=0

Le condizioni KKT del secondo problema indicano:

x~y+2μx~=0

e

μ(x~22t)=0

L'ultima equazione suggerisce che o .μ=0x~22=t

Presta attenzione che le 2 equazioni di base sono equivalenti.
Vale a dire se e entrambe le equazioni. x^=x~μ=λ

Quindi significa che nel caso uno deve impostare che significa che per abbastanza grande affinché entrambi siano equivalenti si deve impostare .y22tμ = 0tλ = 0

Nell'altro caso si dovrebbe trovare dove:μ

yt( Io+2μI)1(I+2μI)1y=t

Questo è fondamentalmente quandox~22=t

Una volta che si scopre che le soluzioni si scontreranno.μ

Per quanto riguarda il caso (LASSO), funziona con la stessa idea. L'unica differenza è che non abbiamo chiuso per soluzione, quindi derivare la connessione è più complicato.L1

Dai un'occhiata alla mia risposta a StackExchange Cross Validated Q291962 e StackExchange Signal Processing Q21730 - Significato di in Basis Pursuitλ .

Nota
Cosa sta realmente accadendo?
In entrambi i problemi, cerca di essere il più vicino possibile a . Nel primo caso, svanirà il primo termine (la distanza ) e nel secondo caso la funzione obiettivo scomparirà. La differenza è che nel primo caso bisogna bilanciare Norm di . Man mano che aumenta, l'equilibrio significa che dovresti ridurre . Nel secondo caso c'è un muro, si mettono sempre più vicino allaxy
x=yL2
L2xλx
xyt t y λ yfino a quando non si colpisce il muro che è il vincolo della sua Norm (Per ). Se il muro è abbastanza lontano (alto valore di ) e abbastanza dipende dalla norma di allora non ho alcun significato, proprio come è rilevante solo per il suo valore moltiplicato per la norma di inizia a essere significativo. La connessione esatta è del lagrangiano sopra indicato.t
tyλy

risorse

Ho trovato questo documento oggi (03/04/2019):


l'equivalente significa che \ lambda e \ t dovrebbero essere uguali. Perché non riesco a vederlo nella prova. grazie
jeza,

@jeza, come ho scritto sopra, per ogni è (non necessariamente uguale a ma una funzione di ei dati ) tale che le soluzioni delle due forme sono uguali. λ 0 t t ytλ0tty
Royi,

3
@jeza, entrambi & sono essenzialmente parametri gratuiti qui. Una volta specificato, diciamo, , che produce una soluzione ottimale specifica. Ma rimane un parametro libero. Quindi a questo punto l'affermazione è che può esserci un valore di che produrrebbe la stessa soluzione ottimale. Ci sono essenzialmente vincoli su ciò che deve essere; non è che debba essere una funzione fissa di , come o qualcosa del genere. λtλtttλt=λ/2
gung - Ripristina Monica

@Royi, vorrei sapere 1- perché la tua formula ha (1/2), mentre le formule in questione no? 2- stanno usando KKT per mostrare l'equivalenza delle due formule? 3- se sì, non riesco ancora a vedere quell'equivalenza. Non sono sicuro, ma quello che mi aspetto di vedere è quella prova per dimostrare che la formula uno = formula due.
Jeza

1. Semplicemente più semplice quando si differenzia il termine LS. Puoi spostare da my a OP per un fattore di due. 2. Ho usato KKT per il secondo caso. Il primo caso non ha vincoli, quindi puoi semplicemente risolverlo. 3. Non esiste un'equazione in forma chiusa tra di loro. Ho mostrato la logica e come è possibile creare un grafico collegandoli. Ma come ho scritto, cambierà per ogni (dipende dai dati). λλy
Royi,

9

Un approccio meno matematicamente rigoroso, ma forse più intuitivo, per capire cosa sta succedendo è quello di iniziare con la versione del vincolo (equazione 3.42 nella domanda) e risolverlo usando i metodi di "Lagrange Moltiplicatore" ( https: //en.wikipedia .org / wiki / Lagrange_multiplier o il tuo testo di calcolo multivariabile preferito). Ricorda solo che nel calcolo è il vettore delle variabili, ma nel nostro caso è costante e è il vettore variabile. Una volta applicata la tecnica del moltiplicatore di Lagrange, si finisce con la prima equazione (3.41) (dopo aver gettato via extra che è costante rispetto alla minimizzazione e può essere ignorato).xxβλt

Ciò dimostra anche che funziona per il lazo e altri vincoli.


8

Vale forse la pena leggere sulla dualità lagrangiana e una relazione più ampia (a volte equivalenza) tra:

  • ottimizzazione soggetta a vincoli rigidi (cioè inviolabili)
  • ottimizzazione con penalità per violazione dei vincoli.

Introduzione rapida alla dualità debole e alla dualità forte

Supponiamo di avere una funzione di due variabili. Per ogni x ed y , abbiamo:f(x,y)x^y^

minxf(x,y^)f(x^,y^)maxyf(x^,y)

Poiché questo vale per ogni x ed y Contiene inoltre che:x^y^

maxyminxf(x,y)minxmaxyf(x,y)

Questo è noto come debole dualità . In alcune circostanze, hai anche una forte dualità (nota anche come proprietà del punto di sella ):

maxyminxf(x,y)=minxmaxyf(x,y)

Quando vale la forte dualità, risolvere il doppio problema risolve anche il problema primario. Sono in un certo senso lo stesso problema!

Lagrangiano per Regressione della cresta vincolata

Vorrei definire la funzione come:L

L(b,λ)=i=1n(yxib)2+λ(j=1pb2jt)

L'interpretazione min-max del lagrangiano

Il problema di regressione di Ridge soggetto a forti vincoli è:

minbmaxλ0L(b,λ)

Scegli per minimizzare l'obiettivo, consapevole che dopo aver scelto b , il tuo avversario imposterà λ su infinito se scegli b tale che p j = 1 b 2 j > t .bbλbpj=1b2j>t

Se la forte dualità è valida (cosa che fa qui perché la condizione di Slater è soddisfatta per ), otterrai lo stesso risultato invertendo l'ordine:t>0

maxλ0minbL(b,λ)

Qui, il tuo avversario sceglie prima ! Scegli quindi b per ridurre al minimo l'obiettivo, conoscendo già la loro scelta di λ . La parte min b L ( b , λ ) (presa λ come indicato) equivale alla seconda forma del problema di regressione della cresta.λ bλminbL(b,λ)λ

Come puoi vedere, questo non è un risultato particolare della regressione di Ridge. È un concetto più ampio.

Riferimenti

(Ho iniziato questo post a seguito di un'esposizione che ho letto da Rockafellar.)

Analisi di Rockafellar, RT, Convex

Potresti anche esaminare le lezioni 7 e 8 del corso del Prof. Stephen Boyd sull'ottimizzazione convessa.


nota che la tua risposta può essere estesa a qualsiasi funzione convessa.
81235

6

Non sono equivalenti .

Per un problema di minimizzazione vincolata

minbi=1n(yxib)2s.t.j=1pb2jt,b=(b1,...,bp)(1)

risolviamo minimizzando su il corrispondente Lagrangeanb

Λ=i=1n(yxib)2+λ(j=1pb2jt)(2)

Here, t is a bound given exogenously, λ0 is a Karush-Kuhn-Tucker non-negative multiplier, and both the beta vector and λ are to be determined optimally through the minimization procedure given t.

Comparing (2) and eq (3.41) in the OP's post, it appears that the Ridge estimator can be obtained as the solution to

minb{Λ+λt}(3)

Since in (3) the function to be minimized appears to be the Lagrangean of the constrained minimization problem plus a term that does not involve b, it would appear that indeed the two approaches are equivalent...

But this is not correct because in the Ridge regression we minimize over b given λ>0. But, in the lens of the constrained minimization problem, assuming λ>0 imposes the condition that the constraint is binding, i.e that

j=1p(bj,ridge)2=t

The general constrained minimization problem allows for λ=0 also, and essentially it is a formulation that includes as special cases the basic least-squares estimator (λ=0) and the Ridge estimator (λ>0).

So the two formulation are not equivalent. Nevertheless, Matthew Gunn's post shows in another and very intuitive way how the two are very closely connected. But duality is not equivalence.


@MartijnWeterings Thanks for the comment, I have reworked my answer.
Alecos Papadopoulos

@MartijnWeterings I do not see what is confusing since the expression written in your comment is exactly the expression I wrote in my reworked post.
Alecos Papadopoulos

1
This was the duplicate question I had in mind were the equivalence is explained very intuitively to me math.stackexchange.com/a/336618/466748 the argument that you give for the two not being equivalent seems only secondary to me, and a matter of definition (the OP uses λ0 instead of λ>0 and we could just as well add the constrain t<βOLS22 to exclude the cases where λ=0) .
Sextus Empiricus

@MartijnWeterings When A is a special case of B, A cannot be equivalent to B. And ridge regression is a special case of the general constrained minimization problem, Namely a situation to which we arrive if we constrain further the general problem (like you do in your last comment).
Alecos Papadopoulos

Certainly you could define some constrained minimization problem that is more general then ridge regression (like you can also define some regularization problem that is more general than ridge regression, e.g. negative ridge regression), but then the non-equivalence is due to the way that you define the problem and not due to the transformation from the constrained representation to the Lagrangian representation. The two forms can be seen as equivalent within the constrained formulation/definition (non-general) that are useful for ridge regression.
Sextus Empiricus
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.