Perché Laplace produce precedentemente soluzioni sparse?


22

Stavo esaminando la letteratura sulla regolarizzazione e spesso vedevo paragrafi che collegano la regolarizzazione L2 con il priore gaussiano e L1 con Laplace centrato su zero.

So come appaiono questi priori, ma non capisco, come si traduca, ad esempio, in pesi nel modello lineare. In L1, se capisco correttamente, ci aspettiamo soluzioni sparse, cioè alcuni pesi verranno spinti esattamente a zero. E in L2 otteniamo pesi piccoli ma non zero.

Ma perché succede?

Si prega di commentare se devo fornire ulteriori informazioni o chiarire il mio percorso di pensiero.



1
Una spiegazione intuitiva davvero semplice è che la penalità diminuisce quando si utilizza una norma L2 ma non quando si utilizza una norma L1. Quindi, se riesci a mantenere uguale la parte del modello della funzione di perdita e puoi farlo diminuendo una delle due variabili, è meglio ridurre la variabile con un valore assoluto elevato nel caso L2 ma non nel caso L1.
testuser

Risposte:


21

La relazione della distribuzione di Laplace prima con la mediana (o norma L1) è stata trovata dallo stesso Laplace, che ha scoperto che usando tale prima si stima la mediana piuttosto che la media come con la distribuzione Normale (vedi Stingler, 1986 o Wikipedia ). Ciò significa che la regressione con la distribuzione degli errori di Laplace stima la mediana (come ad esempio la regressione quantile), mentre gli errori normali si riferiscono alla stima OLS.

t

Usando tali priori sei più incline a finire con molti coefficienti a valore zero, alcuni di dimensioni moderate e alcuni di grandi dimensioni (coda lunga), mentre con Normale prima ottieni coefficienti di dimensioni più moderate che non sono esattamente zero, ma anche non così lontano da zero.

inserisci qui la descrizione dell'immagine

(fonte immagine Tibshirani, 1996)


Stigler, SM (1986). La storia della statistica: la misurazione dell'incertezza prima del 1900. Cambridge, MA: Belknap Press della Harvard University Press.

Tibshirani, R. (1996). restringimento di regressione e la selezione tramite il lazo. Giornale della Royal Statistical Society. Serie B (metodologica), 267-288.

Gelman, A., Jakulin, A., Pittau, GM e Su, Y.-S. (2008). Una distribuzione precedente di default debolmente informativa per i modelli di logistica e altri modelli di regressione. The Annals of Applied Statistics, 2 (4), 1360-1383.

Norton, RM (1984). La doppia distribuzione esponenziale: usare il calcolo per trovare uno stimatore della massima verosimiglianza. The American Statistician, 38 (2): 135-136.


Caspita, questa è un'ottima spiegazione, e anche un ringraziamento speciale per la domanda collegata in cui le norme di regolarizzazione sono intuitivamente collegate a mode, meadian e mean, questo mi chiarisce davvero molto!
Dmitry Smirnov,

1
@Tim, The Cauchy Distribution ha Heavy Tail ma la probabilità di Zero è inferiore alla distribuzione normale. Quindi come mai indurre una soluzione sparsa?
Royi,

4

Vista frequentatore 👀

In un certo senso, possiamo pensare a entrambe le regolarizzazioni come a "ridurre i pesi" ; L2 minimizza la norma euclidea dei pesi, mentre L1 minimizza la norma di Manhattan. Seguendo questa linea di pensiero, possiamo ragionare che gli equipotenziali di L1 e L2 sono rispettivamente sferici e a forma di diamante, quindi L1 ha maggiori probabilità di portare a soluzioni sparse, come illustrato in Bishop's Pattern Recognition and Machine Learning :

Bishop's * Pattern Recognition and Machine Learning *

Vista bayesiana 👀

Tuttavia, al fine di comprendere come i priori si relazionano con il modello lineare , dobbiamo comprendere l' interpretazione bayesiana della regressione lineare ordinaria . Il post sul blog di Katherine Bailey è un'ottima lettura per questo. In breve, assumiamo errori iid normalmente distribuiti nel nostro modello lineare

y=θX+ε

cioè ciascuna delle nostre N misurazioni yio,io=1,2,...,NεK~N(0,σ)

Quindi possiamo dire che anche il nostro modello lineare ha una probabilità gaussiana! La probabilità di y è

p(y|X,θ;ε)=N(θX,σ)

A quanto pare ... Lo stimatore della massima verosimiglianza è identico a minimizzare l'errore al quadrato tra i valori di output previsti e quelli effettivi in ​​base al presupposto della normalità per l'errore.

θ^MLE=argmaxθlogP(y|θ)=argminθΣio=1n(yio-θXio)2

La regolarizzazione come mettere i priors sui pesi

Se dovessimo posizionare un precedente non uniforme sui pesi della regressione lineare, la stima della massima probabilità a posteriori (MAP) sarebbe:

θ^CARTA GEOGRAFICA=argmaxθlogP(y|θ)+logP(θ)

P(θ)θ

P(θ)θ

Laplace vs Gaussian

Ora abbiamo un'altra visione del perché mettere un Laplace prima dei pesi ha maggiori probabilità di indurre la scarsità: poiché la distribuzione di Laplace è più concentrata attorno allo zero , i nostri pesi hanno maggiori probabilità di essere zero.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.