Modellazione matematica di reti neurali come modelli grafici


11

Sto lottando per stabilire la connessione matematica tra una rete neurale e un modello grafico.

Nei modelli grafici l'idea è semplice: la distribuzione di probabilità fattorizza secondo le cricche nel grafico, con i potenziali che normalmente sono della famiglia esponenziale.

Esiste un ragionamento equivalente per una rete neurale? Si può esprimere la distribuzione di probabilità sulle unità (variabili) in una macchina Boltzmann limitata o una CNN in funzione della loro energia o del prodotto delle energie tra le unità?

Inoltre, la distribuzione di probabilità è modellata da un RBM o una rete di credenze profonde (ad es. Con CNN) della famiglia esponenziale?

Spero di trovare un testo che formalizzi la connessione tra questi moderni tipi di reti neurali e statistiche allo stesso modo di Jordan e Wainwright per i modelli grafici con i loro Modelli grafici, Famiglie esponenziali e Inferenza variazionale . Qualsiasi suggerimento sarebbe grandioso.


1
IM (hater's) O il problema principale qui è che le reti neurali non sono realmente reti; praticamente hanno una topologia fissa e quindi hanno una minima possibilità di memorizzare qualsiasi informazione al suo interno.

Hai visto questo post recente ?
Jerad,

@jerad Grazie, non avevo letto quel post. La mia domanda non è tanto su come combinare questi modelli (ad esempio quando dice Yann "using deep nets as factors in an MRF"), ma piuttosto su come guardare una rete profonda come un grafico probabilistico. Quando dice Yann LeCun "of course deep Boltzmann Machines are a form of probabilistic factor graph themselves", mi interessa vedere matematicamente quella connessione.
Amelio Vazquez-Reina

@mbq, abbiamo visto alcune forme di memorizzazione delle informazioni sui componenti del livello nascosto, ad esempio https://distill.pub/2017/feature-visualization/( Come le reti neurali accrescono la loro comprensione delle immagini ), in quanto un'immagine complessa ha oggetti componenti rappresentati da nodi di livello nascosti. I pesi possono "alterare" la "topologia" in modo non discreto. Anche se non l'ho visto, alcuni metodi potrebbero includere fattori di restringimento per rimuovere i bordi e quindi cambiare la topologia originale
Vass

Risposte:


6

Un'altra buona introduzione sull'argomento è il corso CSC321 presso l'Università di Toronto e il corso neuralnets-2012-001 su Coursera, entrambi tenuti da Geoffrey Hinton.

Dal video su Belief Nets:

Modelli grafici

I primi modelli grafici utilizzavano esperti per definire la struttura del grafico e le probabilità condizionali. I grafici erano scarsamente collegati e l'attenzione era rivolta alla corretta inferenza e non all'apprendimento (le conoscenze provenivano dagli esperti).

Reti neurali

Per le reti neurali, l'apprendimento era fondamentale. La conoscenza non era faticosa (OK, forse un po '). L'apprendimento è venuto dall'apprendimento dei dati di addestramento, non dagli esperti. Le reti neurali non miravano a interpretare la connettività sparsa per facilitare l'inferenza. Tuttavia, ci sono versioni di reti neurali di reti di credenze.


La mia comprensione è che le reti di credenze sono solitamente troppo densamente connesse e le loro cricche sono troppo grandi per essere interpretabili. Le reti di credenze usano la funzione sigmoide per integrare gli input, mentre i modelli grafici continui in genere usano la funzione gaussiana. Il sigmoid rende la rete più facile da addestrare, ma è più difficile da interpretare in termini di probabilità. Credo che entrambi appartengano alla famiglia esponenziale.

Sono tutt'altro che un esperto in questo, ma gli appunti e i video delle lezioni sono una grande risorsa.


1
Benvenuti nel sito. Stiamo cercando di creare un archivio permanente di informazioni statistiche di alta qualità sotto forma di domande e risposte. Pertanto, siamo diffidenti nei confronti delle risposte solo link, a causa di linkrot. Puoi pubblicare una citazione completa e un riepilogo delle informazioni al link, nel caso in cui vada a mancare?
gung - Ripristina Monica

Questo è davvero carino. Grazie per aver aggiunto queste informazioni e benvenuto nel CV.
gung - Ripristina Monica

Devo sottolineare che le informazioni nella prima metà della tua risposta non sono del tutto esatte, il che suppongo sia implicito nell'uso di "primi modelli grafici" (dovrebbe essere "molto molto presto"). Per molto tempo, sono stati usati modelli grafici per apprendere tutti gli aspetti della sua architettura allo stesso modo delle reti neurali. Ma il tuo suggerimento successivo sui sigmoidi che prendono il posto dei gaussiani nei grafici dei fattori è interessante!
GuSuku,

4

Radford Neal ha svolto un buon lavoro in quest'area che potrebbe interessarti, incluso un lavoro diretto nell'equare i modelli grafici bayesiani con le reti neurali. (Apparentemente la sua tesi era su questo argomento specifico.)

Non ho abbastanza familiarità con questo lavoro per fornire un riepilogo intelligente, ma volevo darti il puntatore nel caso lo trovassi utile.


Da quello che ho capito dalle opere di Neal, Mackay ecc., Stanno usando l'ottimizzazione bayesiana in cui i parametri su cui ottimizzare sono i pesi e i pregiudizi neuronali, anche andando a mostrare che la normalizzazione L2 delle reti neurali può essere vista come un precedente gaussiano rispetto al pesi. Tale programma è stato continuato ad includere il numero di strati nascosti, neuroni all'interno di ogni strato ecc. Tra le variabili di ottimizzazione.
GuSuku,

Ma questo è diverso da quello che l'OP ha chiesto perché progettare l'architettura della rete neurale da provare nella prossima corsa è solo un caso speciale di progettazione sperimentale che utilizza i modelli bayesiani come motore di iper-progettazione. Penso che ciò che l'OP ha richiesto fosse una mappatura tra rete neurale e modellazione bayesiana, allo "stesso livello".
GuSuku,

4

Questo potrebbe essere un vecchio thread, ma ancora una domanda rilevante.

L'esempio più evidente delle connessioni tra Neural Networks (NN) e Probabilistic Graphical Models (PGM) è quello tra Boltzmann Machines (e le sue varianti come Restricted BM, Deep BM ecc.) E PGM non indirizzati di Markov Random Field.

Allo stesso modo, Belief Networks (e le sue variazioni come Deep BN ecc.) Sono un tipo di PGM diretto di grafici bayesiani

Per di più, vedi:

  1. Yann Lecun, " Un tutorial sull'apprendimento basato sull'energia " (2006)
  2. Yoshua Bengio, Ian Goodfellow e Aaron Courville, "Deep Learning", Ch 16 e 20 (libro in preparazione, al momento della stesura di questo)
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.