La regolarizzazione L2 equivale al priore gaussiano


56

Continuo a leggere questo e intuitivamente posso vederlo, ma come si passa dalla regolarizzazione L2 a dire che si tratta analiticamente di un priore gaussiano? Lo stesso vale per dire che L1 equivale a un precedente lappone.

Ogni ulteriore riferimento sarebbe fantastico.

Risposte:


54

Immaginiamo di voler dedurre alcuni parametri da alcune coppie input-output osservate . Supponiamo che gli output siano linearmente correlati agli input via e che i dati siano corrotti da un po 'di rumore :β(x1,y1),(xN,yN)βϵ

yn=βxn+ϵ,

dove è rumore gaussiano con media e varianza . Ciò provoca una probabilità gaussiana:ϵ0σ2

n=1NN(yn|βxn,σ2).

Cerchiamo di regolarizzare il parametro imponendo il precedente gaussiano dove è uno scalare strettamente positivo. Quindi, combinando la probabilità e il priore abbiamo semplicemente:βN(β|0,λ1),λ

n=1NN(yn|βxn,σ2)N(β|0,λ1).

Prendiamo il logaritmo dell'espressione sopra. Eliminando alcune costanti otteniamo:

n=1N1σ2(ynβxn)2λβ2+const.

Se massimizziamo l'espressione sopra rispetto a , otteniamo la cosiddetta stima a-posteriori massima per , o la stima MAP in breve. In questa espressione diventa evidente perché il priore gaussiano può essere interpretato come un termine di regolarizzazione L2.ββ


Allo stesso modo il rapporto tra la norma L1 e il precedente di Laplace può essere compreso allo stesso modo. Prendi invece di un priore gaussiano, un precedente di Laplace lo combina con la tua probabilità e prendi il logaritmo.

Un buon riferimento (forse leggermente avanzato) che descrive in dettaglio entrambi i problemi è il documento "Scarsità adattiva per l'apprendimento supervisionato", che al momento non sembra facile da trovare online. In alternativa, guarda "Adaptive Sparseness using Jeffreys Prior" . Un altro buon riferimento è "Sulla classificazione bayesiana con i priori di Laplace" .


1
In un D dimensioncaso di regressione lineare, possono betae possono sigmaavere soluzioni esplicite? Sto leggendo il PRML e trovo l'equazione (1.67) a pagina 30 e non ho idea di come risolverlo. Con la massima probabilità, risolviamo betae quindi sigmaimpostando il gradiente su zero. Nel quadrato minimo regolarizzato, poiché alcuni parametri di reqularizzazione lambdasono noti, risolviamo betadirettamente. Ma se risolviamo direttamente MAP, qual è l'ordine di risolvere beta, sigma? Possono avere una soluzione esplicita o dobbiamo usare un processo iterativo?
Stackunderflow

Ti manca un "quadrato" su nell'ultima equazione, ad esempio ? λβλβ2
brian.keng,

@AdamO Limita il numero di valori che i coefficienti possono assumere. Se il precedente è compreso tra 1 e 10, ad esempio, allora c'è 0 probabilità che il coefficiente assuma qualsiasi altro valore, ad esempio [-inf to 1] e [10, + inf].
imsrgadich,

1
In questo caso è noto . Funziona quando è sconosciuto? Per la regressione lineare bayesiana, un precedente gamma inverso potrebbe essere usato per formare un coniugato prima della varianza. Ma non sono sicuro che l'algebra equivalga alla stessa espressione. σ2σ2
AdamO,

11

Per un modello lineare con probabilità normale normale multivariata e normale normale multivariata, si ottiene una distribuzione posteriore normale multivariata in cui la media del posteriore (e il modello massimo a posteriori) è esattamente ciò che si otterrebbe usando Tikhonov regolarizzato ( regolarizzati) minimi quadrati con un parametro di regolarizzazione appropriato. L2

Si noti che esiste una differenza più fondamentale nel fatto che il posteriore bayesiano è una distribuzione di probabilità, mentre la soluzione dei minimi quadrati regolarizzata da Tikhonov è una stima puntuale specifica.

Questo è discusso in molti libri di testo sui metodi bayesiani per problemi inversi. Vedi ad esempio:

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

Allo stesso modo, se si ha un precedente laparaciano e una probabilità normale multivariata, allora il massimo della distribuzione posteriore si verifica in un punto che si potrebbe ottenere risolvendo un problema minimi quadrati regolarizzati. L1


9

Prima nota che la mediana minimizza la norma L1 (vedi qui o qui per saperne di più su L1 e L2)

median(x)=argminsi|xis|1

mentre la media minimizza L2

mean(x)=argminsi|xis|2

ora, ricordiamo che il parametro distribuzioni normali può essere stimato usando la media campionaria , mentre lo stimatore MLE per il parametro distribuzione di Laplace è mediano. Quindi l'uso della distribuzione normale equivale all'ottimizzazione della norma L2 e l'uso della distribuzione di Laplace, all'utilizzo dell'ottimizzazione L1. In pratica, puoi pensare che quella mediana sia meno sensibile ai valori anomali rispetto alla media, e lo stesso, usare la distribuzione di Laplace più grassa come un precedente rende il tuo modello meno incline ai valori anomali, rispetto all'utilizzo della distribuzione normale.μμμ


Hurley, WJ (2009) Un approccio induttivo per calcolare l'MLE per la doppia distribuzione esponenziale . Rivista dei moderni metodi statistici applicati: 8 (2), articolo 25.


Forse questa non è la risposta matematicamente più rigorosa qui fornita, ma è sicuramente la più semplice e intuitiva da comprendere per un principiante nella regolarizzazione L1 / L2.
SQLServerSteve

8

Per un problema di regressione con variabili (senza intercettazione) si fa OLS comek

minβ(yXβ)(yXβ)

Nella regressione regolarizzata con penalità lo faiLp

minβ(yXβ)(yXβ)+λi=1k|βi|p

Possiamo fare equivalentemente (notare le modifiche del segno)

maxβ(yXβ)(yXβ)λi=1k|βi|p

Questo è direttamente correlato al principio bayesiano di

posteriorlikelihood×prior

o equivalentemente (in condizioni di regolarità)

log(posterior)log(likelihood)+log(penalty)

Ora non è difficile vedere quale distribuzione esponenziale della famiglia corrisponde a quale tipo di penalità.


3

Per mettere l'equivalenza più precisamente:

L'ottimizzazione dei pesi del modello per minimizzare una funzione quadrata di perdita degli errori con la regolarizzazione L2 equivale a trovare i pesi che sono molto probabilmente sotto una distribuzione posteriore valutata usando la regola di Bayes, con un peso gaussiano indipendente a media zero prima

Prova:

La funzione di perdita descritta sopra sarebbe data da

L=[n=1N(y(n)fw(x(n)))2]Originallossfunction+λi=1Kwi2L2loss

Si noti che la distribuzione per un gaussiano multivariato è

N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(12(xμ)Σ1(xμ))

Usando la regola di Bayes, ce l'abbiamo

p(w|D)=p(D|w)p(w)p(D)p(D|w)p(w)[nNN(y(n);fw(x(n)),σy2)]N(w;0,σw2I)nNN(y(n);fw(x(n)),σy2)i=1KN(wi;0,σw2)

Dove siamo in grado di dividere il guassiano multidimensionale in un prodotto, perché la covarianza è un multiplo della matrice dell'identità.

Prendi la probabilità di log negativa

log[p(w|D)]=n=1Nlog[N(y(n);fw(x(n)),σy2)]i=1Klog[N(wi;0,σw2)]+const.=12σy2n=1N(y(n)fw(x(n)))2+12σw2i=1Kwi2+const.

Ovviamente possiamo eliminare la costante e moltiplicarla per qualsiasi importo senza influire sostanzialmente sulla funzione di perdita. (la costante non fa nulla, la moltiplicazione scala efficacemente il tasso di apprendimento. Non influirà sulla posizione dei minimi) Quindi possiamo vedere che la probabilità di log negativa della distribuzione posteriore è una funzione di perdita equivalente alla funzione di perdita di errore quadrata regolarizzata L2.

Questa equinazione è generale e vale per qualsiasi funzione parametrica dei pesi, non solo per la regressione lineare, come sembra implicito sopra.


1

Ci sono due caratteristiche della modellistica bayesiana che devono essere enfatizzate quando si discute l'equivalenza di alcune stime della probabilità massima penalizzata e delle procedure bayesiane.

  1. Nel quadro bayesiano, il priore è selezionato in base alle specifiche del problema e non è motivato dall'opportunità computazionale. Quindi i bayesiani usano una varietà di priori tra cui l'ormai popolare ferro di cavallo prima di problemi di predittore sparsi, e non hanno bisogno di fare così tanto affidamento su priori equivalenti a penalità L1 o L2.
  2. Con un approccio bayesiano completo hai accesso a tutte le procedure inferenziali quando hai finito. Ad esempio, è possibile quantificare le prove per i coefficienti di regressione elevati e è possibile ottenere intervalli credibili sui coefficienti di regressione e sui valori complessivi previsti. Nel quadro del frequentista, una volta scelta la penalizzazione, si perde tutta la macchina inferenziale.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.