I modelli grafici e le macchine Boltzmann sono matematicamente correlati?


10

Sebbene abbia effettivamente programmato alcune macchine Boltzmann in una lezione di fisica, non ho familiarità con la loro caratterizzazione teorica. Al contrario, conosco una modesta quantità della teoria dei modelli grafici (sui primi capitoli del libro Graphical Models di Lauritzen ).

Domanda: esiste una relazione significativa tra i modelli grafici e la macchina Boltzmann? La macchina Boltzmann è un tipo di modello grafico?

Ovviamente la macchina Boltzmann è un tipo di rete neurale. Ho sentito che alcune reti neurali sono matematicamente correlate a modelli grafici e altre no.

Domande correlate su CrossValidated che non rispondono alla mia domanda:
è simile a una domanda precedente che era stata posta prima: qual è la relazione tra modelli gerarchici, reti neurali, modelli grafici, reti bayesiane? ma è più specifico.

Inoltre, la risposta accettata a questa domanda non chiarisce la mia confusione - anche se i nodi nella rappresentazione grafica standard di una rete neurale non rappresentano variabili casuali, ciò non significa necessariamente che tale rappresentazione non esista. In particolare, sto pensando a come i nodi nella tipica rappresentazione grafica delle catene di Markov rappresentino l'insieme di stati possibili anziché le variabili casuali , ma si potrebbe anche creare un grafico che mostra le relazioni di dipendenza condizionale tra l'X iXiXi, il che dimostra che ogni catena di Markov è in realtà un campo casuale di Markov. La risposta dice anche che le reti neurali (presumibilmente comprese le macchine Boltzmann) sono "discriminatorie", ma non vanno più nel dettaglio per spiegare cosa significhi tale affermazione, né l'ovvia domanda di follow-up "i modelli grafici non sono discriminatori?" indirizzata. Allo stesso modo, la risposta accettata si collega al sito Web di Kevin Murphy (in realtà ho letto alcune delle sue tesi di dottorato quando apprendo sulle reti bayesiane), ma questo sito discute solo le reti bayesiane e non menziona affatto le reti neurali - quindi non riesce a chiarire come esse sono diversi.

Quest'altra domanda è probabilmente molto simile alla mia: modellare matematicamente le reti neurali come modelli grafici Tuttavia, nessuna delle risposte è stata accettata e allo stesso modo fornisce solo riferimenti ma non spiega i riferimenti (ad esempio questa risposta ). Spero che un giorno sarò in grado di comprendere i riferimenti, in questo momento sono a un livello base di conoscenza e apprezzerei molto una risposta il più semplice possibile. Inoltre, il corso di Toronto collegato nella risposta principale ( http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml ) affronta questo problema, ma non in modo molto dettagliato. Inoltre, le note per una lezione che potrebbero rispondere alla mia domanda non sono disponibili al pubblico.

25 marzo Conferenza 13b: Belief Nets 7:43. Per questa diapositiva, tieni a mente Boltzmann Machines. Anche lì abbiamo unità nascoste e unità visibili, ed è tutto probabilistico. BM e SBN hanno più in comune che differenze. 09:16. Al giorno d'oggi, i "Modelli grafici" sono talvolta considerati una categoria speciale di reti neurali, ma nella storia qui descritta sono stati considerati tipi di sistemi molto diversi.

Risposte:


7

Macchine Boltzmann vs. macchine Boltzmann limitate

AFAIK le macchine Boltzmann sono un tipo di modello grafico e il modello correlato alle reti neurali sono le macchine Boltzmann riservate (RBM).

La differenza tra macchine Boltzmann e macchine Boltzmann limitate, dal libro Machine Learning A Probabilistic Perspective inserisci qui la descrizione dell'immagine

RBM vs netowrks neurali

Per gli RBM (rif: una guida pratica per l'addestramento delle macchine Boltzmann limitate di Geoffrey Hinton ) dove e corrispondono alle unità visibili e nascoste nella figura sopra e è la funzione Sigmoid.

p(v,h)=1Zexp(aivi+bjhj+vihjwij)
p(hj=1|v)=σ(bj+viwij)
v h σ ( )
p(vi=1|h)=σ(ai+hjwij)
vhσ()

Le probabilità condizionali sono calcolate nella stessa forma di strati di rete, quindi i pesi addestrati delle RBM possono essere utilizzati direttamente come pesi delle reti neurali o come punto di partenza dell'allenamento.

Penso che l'RBM stesso sia più un modello grafico che un tipo di rete neurale, dal momento che non è indirizzato, ha indipendenze condizionali ben definite e utilizza i suoi algoritmi di allenamento (ad esempio, divergenza contrastante).


2
Bella questa è davvero una risposta eccezionale con un ottimo riferimento. Mi fa anche venire voglia di andare in giro a leggere il libro del professor Murphy ancora prima. Apprezzo il tempo che hai impiegato per dare questa risposta approfondita.
Chill2Macht,

2
@William felice di essere d'aiuto :)
dontloo,

2
Buona risposta. Potresti documentare un po 'di più la notazione? (Di recente ho letto qualcosa di correlato, suppongo, quindi riconosco nodi visibili, nodi nascosti, funzione logistica, ma altri potrebbero non farlo.) Potrebbe anche essere utile includere la citazione completa , per evitare il collegamento -marcire. h = σ ( ) =v=h=σ()=
GeoMatt22,

2
@ GeoMatt22 grazie, ho aggiornato la risposta.
dontloo,

3

Ciò conferma / verifica semplicemente la risposta accettata, secondo cui le macchine Boltzmann sono davvero un caso speciale di modello grafico. Nello specifico, questa domanda è affrontata alle pagine 127-127 di Koller, Friedman, Modelli grafici probabilistici: principi e tecniche , nel riquadro 4.C.

Uno dei primi tipi di modelli di rete Markov è il modello di Ising che è sorto per la prima volta nella fisica statistica come modello per l'energia di un sistema fisico che coinvolge un sistema di atomi interagenti ... Correlata al modello di Ising è la distribuzione della macchina di Boltzmann. l'energia risultante può essere riformulata in base a un modello Ising (Esercizio 4.12).

Come il modello Ising, originariamente un concetto della letteratura della meccanica statistica, può essere formulato come un modello grafico è dato in maggior dettaglio nell'esempio 3.1., Sezione 3.3., Alle pagine 41-43 di Wainwright, Giordania, Modelli grafici, esponenziale Famiglie e inferenza variazionale .

Apparentemente il modello Ising è stato fondamentale nella fondazione del campo dei modelli grafici tra la fine degli anni '70 e l'inizio degli anni '80, almeno in base a ciò che Steffen Lauritzen afferma sia nella prefazione che nell'introduzione al suo libro, Graphical Models . Questa interpretazione sembra anche supportata dalla Sezione 4.8 nel libro sopra citato di Koller e Friedman.

Lo sviluppo di macchine Boltzmann dal modello Ising potrebbe essere stato un evento indipendente, basato anche su quella stessa sezione di Koller e Friedman, che afferma che "Le macchine Boltzmann sono state inizialmente proposte da Hinton e Sejnowski (1983)", che sembra avere si è verificato dopo il lavoro iniziale nello sviluppo dei campi casuali di Markov come generalizzazioni del modello Ising, sebbene il lavoro dietro quel documento avrebbe potuto iniziare molto prima del 1983.


La mia confusione riguardo a questa relazione, quando scrissi questa domanda più di un anno fa, derivava dal fatto di aver incontrato per la prima volta sia il modello di Ising, sia il modello di macchina di Boltzmann per i neuroni, nella letteratura della fisica. Come menzionano Koller e Friedman, la letteratura all'interno della comunità della fisica statistica sul modello di Ising e le nozioni correlate è veramente vasta.

Nella mia esperienza è anche abbastanza insulare, nel senso che mentre gli statistici e gli informatici che studiano i modelli grafici menzioneranno come il campo è legato alla meccanica statistica, nessun riferimento che io abbia mai trovato dalla letteratura della fisica statistica menziona le connessioni ad altri campi o cerca di sfruttarlo. (Quindi mi fa dubitare ed essere confuso dall'idea che potrebbero esserci tali connessioni con altri campi.)

Per un esempio della prospettiva del fisico sia sul modello Ising che sulla macchina Boltzmann, consultare il libro di testo del corso in cui l'ho appreso per la prima volta. Menziona anche metodi sul campo, se ricordo bene, qualcosa di cui ho discusso anche nell'articolo Jordan e Wainwright sopra citato.


2
la connessione può essere molto sottile e basata principalmente sull'uso della funzione di partizione che è alla base della meccanica statistica e che viene presa l'esponenziale della somma dei prodotti interni. Anche la funzione softmax usa questa forma in modo che la nomenaclatura mantenga l'eredità dei termini e molti fisici lavorano (a cura di) in ML (es. Christopher Bishop).
Vass
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.