Come implementare la regolarizzazione L2 verso un punto arbitrario nello spazio?


11

Ecco qualcosa che ho letto nel libro Deep Learning di Ian Goodfellow .

Nel contesto delle reti neurali, "la penalità della norma del parametro L2 è comunemente nota come riduzione del peso. Questa strategia di regolarizzazione avvicina i pesi all'origine [...]. Più in generale, potremmo regolarizzare i parametri in modo che siano vicini a un punto specifico nello spazio ", ma è molto più comune regolarizzare i parametri del modello verso zero. (Deep Learning, Goodfellow et al.)

Sono solo curioso. Comprendo che semplicemente aggiungendo un termine di regolarizzazione alla nostra funzione di costo e che minimizzando questo costo totale possiamo influenzare i parametri del modello per rimanere piccoli:J

J(Θ,X,y)=L(Θ,X,y)+λ||w||22

Ma come implementare una versione di questa strategia di regolarizzazione che porterebbe i parametri verso un punto arbitrario? (diciamo che vogliamo che la norma tenda verso il 5)

Risposte:


14

In realtà fai due domande diverse.

  1. Avere la norma tende a 5 implica che vuoi che i pesi siano vicini alla superficie di un'ipersfera centrata sull'origine con raggio 5. Questa regolarizzazione assomiglia a qualcosa di simile

J(Θ,X,y)=L(Θ,X,y)+λ(||w||225)2

Ma potresti invece usare qualcosa come λabs(||w||225) , suppongo.

  1. D'altra parte, se si desidera tendere verso un punto arbitrario, è sufficiente utilizzare quel punto come centro c .

J(Θ,X,y)=L(Θ,X,y)+λ||wc||22

(+1) Penso che un modo fruttuoso di pensare alla "norma tendente al cinque" potrebbe essere attraverso la scelta del parametro tuning nella versione di data da OP (piuttosto che cambiare la funzione)J
user795305

(Ho scritto una breve risposta per chiarire cosa intendo sopra. Grazie, comunque, per aver chiarito la distinzione delle due domande poste!)
user795305

un obiettivo comune (pratico) quando si esegue ciò è regolarizzare verso un punto operativo noto, ad esempio il modello precedente che si desidera sostituire ma per il quale si desidera una transizione "regolare"
oDDsKooL

6

DefinisciSappiamo che , a causa della penalità che ha l'origine come minimizzatore.

w^λ=argminwL(Θ,X,y)+λw22.
limλw^λ=0ww22

Sycorax sottolinea che, allo stesso modo,Questa generalizzazione riuscita può portarci a proporre lo stimatore dove è una funzione il cui minimizzatore soddisfa alcune proprietà che cerchiamo. Infatti, Sycorax prende , dove è (unicamente) minimizzato all'origine e, in particolare, . Pertanto , come desiderato. Sfortunatamente, però, entrambe le scelte dilimλ{argminwL(Θ,X,y)+λwc22}=c.

w~λ=argminwL(Θ,X,y)+λpen(w),
penpen(w)=g(w225)gg{||,()2}limλw~λ22=5gportare a sanzioni non convesse, rendendo difficile calcolare lo stimatore.

L'analisi di cui sopra sembra essere la soluzione migliore (forse fino alla scelta di , per la quale non ho uno migliore da suggerire) se insistiamo su come interpretazione unica di "tende a" descritta in la domanda. Tuttavia, supponendo che , esiste un po ' modo che il minimizer del problema di OP satsifes . Pertanto senza la necessità di cambiare la funzione obiettivo. Se non esiste tale , allora il problema dell'informaticaλ arg min w L ( Θ , X , Y ) 2 25 Λ w Λw Λ 2 2 = 5 lim λ ΛgλargminwL(Θ,X,y)225Λw^Λw^Λ22=5

limλΛw^λ22=5,
Λw λw λ 2 2argminw:w22=5L(Θ,X,y) è intrinsecamente difficile. In effetti, non è necessario considerare alcuno stimatore oltre a quando si cerca di incoraggiare le proprietà naturali di .w^λw^λ22

(Far valere che uno stimatore penalizzato raggiunge un valore della penalità che non viene raggiunto dallo stimatore non aperto mi sembra altamente innaturale. Se qualcuno è a conoscenza di luoghi in cui questo è effettivamente desiderato, si prega di commentare!)


1
Questa è un'aggiunta eccellente. +1
Sycorax dice di reintegrare Monica il

2

Per appropriato è possibile vederlo come una probabilità logaritmica negativa e la regolarizzazione appropriata può essere vista come verosimiglianza logaritmica negativa per una distribuzione precedente. Questo approccio è chiamato Maximum A Posteriori (MAP).JLJ

Dovrebbe essere facile vedere gli esempi di Sycorax alla luce di MAP.

Per i dettagli di MAP puoi consultare queste note . Dalla mia esperienza, googling "massima regolarizzazione a posteriori" dà buoni risultati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.