Buon tutorial per le macchine Boltzmann limitate (RBM)


10

Sto studiando la Restricted Boltzmann Machine (RBM) e sto riscontrando dei problemi nella comprensione dei calcoli della probabilità di log rispetto ai parametri dell'RBM. Sebbene siano stati pubblicati molti articoli di ricerca sull'RBM, non vi sono passaggi dettagliati dei derivati. Dopo aver cercato online sono stato in grado di trovarli in questo documento:

  • Fischer, A., & Igel, C. (2012). Un'introduzione alle macchine Boltzmann limitate. In L. Alvarez et al. (Ed.): CIARP, LNCS 7441, pagg. 14–36, Springer-Verlag: Berlino-Heidelberg. ( pdf )

Tuttavia, i dettagli di questo documento sono troppo avanzati per me. Qualcuno può indirizzarmi verso un buon tutorial / set di appunti di lezione su RBM?


Modifica: @ David, la sezione confusa è mostrata di seguito (equazione 29 a pagina 26):

lnL(θ|v)wij=hp(h|v)E(v,h)wij+v,hp(v,h)E(v,h)wij=hp(h|v)hivjvp(v)hp(h|v)hivj(29)=p(Hi=1|v)vjvp(v)p(Hi=1|v)vj.

Puoi essere più specifico su quali passaggi ti confondono?
David J. Harris,

1
una buona lettura è il capitolo 5 dell'apprendimento delle architetture profonde per l'IA ( iro.umontreal.ca/~bengioy/papers/ftml_book.pdf )
dksahuji

@dksahuji grazie per INFO, anche il prof: Bengio sta scrivendo un DL e la bozza iniziale è disponibile su iro.umontreal.ca/~bengioy/dlbook
Upul,

Questo tutorial ha spiegazioni sulla matematica di RBM ( A Tutorial on Restricted Boltzmann Machines ).
Jiang Xiang,

Risposte:


7

So che è un po 'tardi, ma forse aiuta. Per ottenere il primo termine dell'equazione, sono necessari questi passaggi: Abbiamo assunto che l'indipendenza condizionale tra il esistono unità nascoste, date le unità visibili. Quindi possiamo fattorizzare la distribuzione di probabilità congiunta condizionale per gli stati nascosti.

hp(h|v)hivj=vjh1...hi...hnp(h1,...,hi,...hn|v)hi=vjhih_ip(hi,h_i|v)hi
1hi10
=vjhih_ip(hi|v)hip(h_i|v)=vjhip(hi|v)hih_ip(h_i|v)
L'ultimo termine è uguale a , poiché stiamo sommando tutti gli stati. Quindi ciò che rimane è il primo termine. Poiché prende solo gli stati e finiamo con: 1hi10
=vjp(Hi=1|v)

7
  1. C'è un tutorial decente di RBM sul sito di deeplearning .

  2. Questo post sul blog ( Introduzione alle macchine Boltzmann limitate ) è scritto in un linguaggio più semplice e spiega molto bene le basi di RBMS:

  3. Inoltre, forse il miglior riferimento è il corso Neural Networks di Geoff Hinton su Coursea:

    Non sono sicuro di poter accedere alla classe e ai video dopo la fine della lezione.


2
Ci sono ancora persone che si iscrivono alla classe Coursera e pubblicano messaggi nel forum. Puoi ancora vedere tutte le lezioni e accedere a tutti i quiz e compiti di programmazione (tra i quiz). Queste informazioni saranno probabilmente disponibili fino a quando il corso non verrà offerto nuovamente. Consiglio di iscriverti al corso solo per visualizzare o scaricare il materiale.
Douglas Zare,

1

La casella arancione sinistra fornisce il valore atteso del gradiente di energia su tutte le configurazioni nascoste dato che un certo vettore visibile è bloccato sulle unità visibili (l'aspettativa sui dati poiché utilizza un campione dal set di allenamento). Il termine stesso è il prodotto di (1) la probabilità di vedere una particolare unità nascosta i su dato che un certo vettore v è bloccato sulle unità visibili e (2) lo stato di una particolare unità visibile j.

La scatola arancione destra è la stessa cosa di quella sinistra, tranne per il fatto che stai facendo ciò che è nella scatola arancione sinistra per ogni possibile configurazione visibile anziché solo quella che è bloccata sulle unità visibili (l'aspettativa sul modello poiché nulla è bloccato sulle unità visibili).


1

Il capitolo 5 del corso sull'apprendimento automatico ( video ) di Hugo Larochelle è la migliore introduzione che ho trovato finora.

Il derivato della funzione di perdita non è derivato da queste lezioni, ma non è difficile farlo (posso pubblicare una scansione dei miei calcoli se necessario, ma non è poi così difficile). Sto ancora cercando un buon libro di testo su questo argomento, ma principalmente ci sono solo articoli. C'è una buona panoramica degli articoli nel capitolo 20 del Deep Learning Book di Bengio .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.