Risposte:
Immaginiamo di voler dedurre alcuni parametri da alcune coppie input-output osservate . Supponiamo che gli output siano linearmente correlati agli input via e che i dati siano corrotti da un po 'di rumore :
dove è rumore gaussiano con media e varianza . Ciò provoca una probabilità gaussiana:
Cerchiamo di regolarizzare il parametro imponendo il precedente gaussiano dove è uno scalare strettamente positivo. Quindi, combinando la probabilità e il priore abbiamo semplicemente:
Prendiamo il logaritmo dell'espressione sopra. Eliminando alcune costanti otteniamo:
Se massimizziamo l'espressione sopra rispetto a , otteniamo la cosiddetta stima a-posteriori massima per , o la stima MAP in breve. In questa espressione diventa evidente perché il priore gaussiano può essere interpretato come un termine di regolarizzazione L2.
Allo stesso modo il rapporto tra la norma L1 e il precedente di Laplace può essere compreso allo stesso modo. Prendi invece di un priore gaussiano, un precedente di Laplace lo combina con la tua probabilità e prendi il logaritmo.
Un buon riferimento (forse leggermente avanzato) che descrive in dettaglio entrambi i problemi è il documento "Scarsità adattiva per l'apprendimento supervisionato", che al momento non sembra facile da trovare online. In alternativa, guarda "Adaptive Sparseness using Jeffreys Prior" . Un altro buon riferimento è "Sulla classificazione bayesiana con i priori di Laplace" .
Per un modello lineare con probabilità normale normale multivariata e normale normale multivariata, si ottiene una distribuzione posteriore normale multivariata in cui la media del posteriore (e il modello massimo a posteriori) è esattamente ciò che si otterrebbe usando Tikhonov regolarizzato ( regolarizzati) minimi quadrati con un parametro di regolarizzazione appropriato.
Si noti che esiste una differenza più fondamentale nel fatto che il posteriore bayesiano è una distribuzione di probabilità, mentre la soluzione dei minimi quadrati regolarizzata da Tikhonov è una stima puntuale specifica.
Questo è discusso in molti libri di testo sui metodi bayesiani per problemi inversi. Vedi ad esempio:
http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/
http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/
Allo stesso modo, se si ha un precedente laparaciano e una probabilità normale multivariata, allora il massimo della distribuzione posteriore si verifica in un punto che si potrebbe ottenere risolvendo un problema minimi quadrati regolarizzati.
Prima nota che la mediana minimizza la norma L1 (vedi qui o qui per saperne di più su L1 e L2)
mentre la media minimizza L2
ora, ricordiamo che il parametro distribuzioni normali può essere stimato usando la media campionaria , mentre lo stimatore MLE per il parametro distribuzione di Laplace è mediano. Quindi l'uso della distribuzione normale equivale all'ottimizzazione della norma L2 e l'uso della distribuzione di Laplace, all'utilizzo dell'ottimizzazione L1. In pratica, puoi pensare che quella mediana sia meno sensibile ai valori anomali rispetto alla media, e lo stesso, usare la distribuzione di Laplace più grassa come un precedente rende il tuo modello meno incline ai valori anomali, rispetto all'utilizzo della distribuzione normale.μ
Hurley, WJ (2009) Un approccio induttivo per calcolare l'MLE per la doppia distribuzione esponenziale . Rivista dei moderni metodi statistici applicati: 8 (2), articolo 25.
Per un problema di regressione con variabili (senza intercettazione) si fa OLS come
Nella regressione regolarizzata con penalità lo fai
Possiamo fare equivalentemente (notare le modifiche del segno)
Questo è direttamente correlato al principio bayesiano di
o equivalentemente (in condizioni di regolarità)
Ora non è difficile vedere quale distribuzione esponenziale della famiglia corrisponde a quale tipo di penalità.
Per mettere l'equivalenza più precisamente:
L'ottimizzazione dei pesi del modello per minimizzare una funzione quadrata di perdita degli errori con la regolarizzazione L2 equivale a trovare i pesi che sono molto probabilmente sotto una distribuzione posteriore valutata usando la regola di Bayes, con un peso gaussiano indipendente a media zero prima
Prova:
La funzione di perdita descritta sopra sarebbe data da
Si noti che la distribuzione per un gaussiano multivariato è
Usando la regola di Bayes, ce l'abbiamo
Dove siamo in grado di dividere il guassiano multidimensionale in un prodotto, perché la covarianza è un multiplo della matrice dell'identità.
Prendi la probabilità di log negativa
Ovviamente possiamo eliminare la costante e moltiplicarla per qualsiasi importo senza influire sostanzialmente sulla funzione di perdita. (la costante non fa nulla, la moltiplicazione scala efficacemente il tasso di apprendimento. Non influirà sulla posizione dei minimi) Quindi possiamo vedere che la probabilità di log negativa della distribuzione posteriore è una funzione di perdita equivalente alla funzione di perdita di errore quadrata regolarizzata L2.
Questa equinazione è generale e vale per qualsiasi funzione parametrica dei pesi, non solo per la regressione lineare, come sembra implicito sopra.
Ci sono due caratteristiche della modellistica bayesiana che devono essere enfatizzate quando si discute l'equivalenza di alcune stime della probabilità massima penalizzata e delle procedure bayesiane.
D dimension
caso di regressione lineare, possonobeta
e possonosigma
avere soluzioni esplicite? Sto leggendo il PRML e trovo l'equazione (1.67) a pagina 30 e non ho idea di come risolverlo. Con la massima probabilità, risolviamobeta
e quindisigma
impostando il gradiente su zero. Nel quadrato minimo regolarizzato, poiché alcuni parametri di reqularizzazionelambda
sono noti, risolviamobeta
direttamente. Ma se risolviamo direttamente MAP, qual è l'ordine di risolverebeta
,sigma
? Possono avere una soluzione esplicita o dobbiamo usare un processo iterativo?