Che cos'è il deep learning bayesiano?


13

Che cos'è il deep learning bayesiano e in che modo si collega alle statistiche bayesiane tradizionali e al deep learning tradizionale?

Quali sono i concetti e la matematica principali coinvolti? Potrei dire che sono solo statistiche bayesiane non parametriche? Quali sono le sue opere fondamentali, nonché i suoi attuali sviluppi e applicazioni principali?

PS: Bayesian Deep Learning sta attirando molta attenzione, vedi il workshop NIPS.

Risposte:


10

Uscendo dal collegamento al seminario NIPS, Yee Whye Teh ha tenuto un discorso programmatico al NIPS sul Bayesian Deep Learning (video: https://www.youtube.com/watch?v=LVBvJsTr3rg , slide: http: //csml.stats. ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/). Penso che ad un certo punto del discorso, Teh abbia riassunto il deep learning bayesiano come applicazione del framework bayesiano alle idee di deep learning (come l'apprendimento di un posteriore sui pesi di una rete neurale), e il deep bayesiano come applicazione di idee dal deep learning al Quadro bayesiano (come processi gaussiani profondi o famiglie esponenziali profonde). Ci sono ovviamente idee che si trovano a cavallo tra i due concetti, come gli autoencoder variazionali. Quando la maggior parte delle persone dice l'apprendimento profondo bayesiano, di solito significano una delle due cose, e ciò si riflette nei documenti accettati nel seminario che hai collegato (insieme al seminario dell'anno precedente). Mentre le idee risalgono al lavoro di Neal sull'apprendimento bayesiano delle reti neurali negli anni '90 (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf ), e da allora c'è stato lavoro negli anni, probabilmente uno dei più recenti documenti recenti sarebbe il carta per autoencoder variazionale originale ( https://arxiv.org/pdf/1312.6114.pdf ).


10

Suggerirei prima di tutto di capire quale sia il modello probabilistico sottostante in una tradizionale rete neurale bayesiana. Di seguito, alcuni termini verranno scritti in grassetto . Per favore, prova a cercare su Google quei termini per trovare informazioni più dettagliate. Questa è solo una panoramica di base. Spero possa essere d'aiuto.

Consideriamo il caso della regressione nelle reti neurali feedforward e stabiliamo qualche notazione.

Let denotano i valori dei predittori sul livello di input . I valori di(X1,...,Xp)=:(z1(0),...,zN0(0)) unità negli strati interni saranno indicati con , per(z1(),...,zN()) . Infine, abbiamo illivello di output ( y 1 , , y k ) = : ( z ( L ) 1 , , z ( L ) N L ) .=1,...,L-1 (y1,...,yK)=:(z1(L),...,zNL(L))

I pesi e la polarizzazione dell'unità sullo strato saranno indicati con w ( ) i j e b ( ) i , rispettivamente, per = 1 , , L , i = 1 , N e j = 1 , ... , N - 1 .iowioj()Bio()=1,...,Lio=1...,Nj=1,...,N-1

Sia la funzione di attivazione per l'unità i allo strato , per = 1 , , L e i = 1 , N .gio():RN-1Rio=1,...,Lio=1...,N

Le funzioni di attivazione comunemente utilizzate sono la logistica , ReLU (aka parte positiva ) e tanh .

Ora, per , definisci le funzioni di transizione del livello G ( ) : R N - 1R N : ( z ( - 1 ) 1 , , z ( - 1 ) N - 1 )( z ( ) 1 , , z (=1,...,L in cui z ( ) i=g ( ) i

sol():RN-1RN:(z1(-1),...,zN-1(-1))(z1(),...,zN()),
peri=1,, N .
zio()=gio()(Σj=1N-1wioj()zj(-1)+Bio()),
io=1,...,N

Indica l'insieme di pesi e distorsioni di tutte le unità in tutti i livelli di , ovvero θ = { w ( ) i j , b ( ) i : = 1 , , Lθ nostra rete neurale è la famiglia di funzioni G θ : R pR k ottenuta dalla composizione delle funzioni di transizione del livello: G θ = G ( L )G ( L - 1 )G ( 1 ) .

θ={wioj(),Bio():=1,...,L;io=1...,N;j=1,...,N-1},
solθ:RpRK
solθ=sol(L)sol(L-1)sol(1).

Non ci sono probabilità coinvolte nella descrizione sopra. Lo scopo del business originale della rete neurale è adattamento delle funzioni .

Il "profondo" nel Deep Learning rappresenta l'esistenza di molti strati interni nelle reti neurali in esame.

{(Xio,yio)Rp×RK:io=1,...,n}

Σio=1nyio-solθ(Xio)2,
θX*solθ^(X*)θ^come la penalità per la funzione obiettivo o l'uso del dropout durante l'allenamento. Geoffrey Hinton (aka Deep Learning Godfather) e collaboratori hanno inventato molte di queste cose. Le storie di successo del Deep Learning sono ovunque.

LX,y(θ,σ2)ασ-nexp(-12σ2Σio=1nyio-solθ(Xio)2),
π(θ,σ2)αexp(-12σ02Σ=1LΣio=1N((Bio())2+Σj=1N-1(wioj())2))×π(σ2).

Pertanto, i priori marginali per pesi e distorsioni sono distribuzioni normali con media zero e varianza comune σ02. Questo modello comune originale può essere reso molto più coinvolto, con il compromesso di rendere più difficile l'inferenza.

Il Bayesian Deep Learning affronta il difficile compito di campionare dalla corrispondente distribuzione posteriore. Dopo che questo è stato realizzato, le previsioni vengono fatte naturalmente con la distribuzione predittiva posteriore e le incertezze coinvolte in queste previsioni sono pienamente quantificate. Il Santo Graal nel Bayesian Deep Learning è la costruzione di una soluzione efficiente e scalabile. In questa ricerca sono stati usati molti metodi computazionali: campionamento di Metropolis-Hastings e Gibbs , Hamiltonian Monte Carlo e, più recentemente, Inferenza variazionale .

Guarda i video della conferenza NIPS per alcune storie di successo: http://bayesiandeeplearning.org/

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.