Vista frequentatore 👀
In un certo senso, possiamo pensare a entrambe le regolarizzazioni come a "ridurre i pesi" ; L2 minimizza la norma euclidea dei pesi, mentre L1 minimizza la norma di Manhattan. Seguendo questa linea di pensiero, possiamo ragionare che gli equipotenziali di L1 e L2 sono rispettivamente sferici e a forma di diamante, quindi L1 ha maggiori probabilità di portare a soluzioni sparse, come illustrato in Bishop's Pattern Recognition and Machine Learning :
Vista bayesiana 👀
Tuttavia, al fine di comprendere come i priori si relazionano con il modello lineare , dobbiamo comprendere l' interpretazione bayesiana della regressione lineare ordinaria . Il post sul blog di Katherine Bailey è un'ottima lettura per questo. In breve, assumiamo errori iid normalmente distribuiti nel nostro modello lineare
y = θ⊤X + ϵ
cioè ciascuna delle nostre N misurazioni yio, i = 1 , 2 , … , NεK∼ N( 0 , σ)
Quindi possiamo dire che anche il nostro modello lineare ha una probabilità gaussiana! La probabilità di y è
p ( y | X , θ ; ϵ ) = N( θ⊤X , σ)
A quanto pare ... Lo stimatore della massima verosimiglianza è identico a minimizzare l'errore al quadrato tra i valori di output previsti e quelli effettivi in base al presupposto della normalità per l'errore.
θ^MLE= argmaxθlogP( y| θ)= argminθΣi = 1n( yio- θ⊤Xio)2
La regolarizzazione come mettere i priors sui pesi
Se dovessimo posizionare un precedente non uniforme sui pesi della regressione lineare, la stima della massima probabilità a posteriori (MAP) sarebbe:
θ^CARTA GEOGRAFICA= argmaxθlogP( y| θ)+logP( θ )
P( θ )θ
P( θ )θ
Ora abbiamo un'altra visione del perché mettere un Laplace prima dei pesi ha maggiori probabilità di indurre la scarsità: poiché la distribuzione di Laplace è più concentrata attorno allo zero , i nostri pesi hanno maggiori probabilità di essere zero.