Casi d'uso moderni di macchine Boltzmann limitate (RBM)?


16

Background: molta della ricerca moderna negli ultimi 4 anni (post alexnet ) sembra essersi allontanata dall'uso della pre-generazione generativa per le reti neurali per ottenere risultati di classificazione all'avanguardia.

Ad esempio, i migliori risultati per mnist qui includono solo 2 articoli dei primi 50 che sembrano usare modelli generativi, entrambi i quali sono RBM. Gli altri 48 articoli vincitori riguardano diverse architetture discriminatorie di feed forward, con molti sforzi per trovare inizializzazioni di peso migliori / nuove e funzioni di attivazione diverse dal sigmoide usato nell'RBM e in molte reti neurali più vecchie.

Domanda: c'è qualche motivo moderno per usare più le macchine Boltzmann limitate?

Altrimenti, c'è una modifica di fatto che si può applicare a queste architetture feed forward per rendere generativi i loro strati?

Motivazione: chiedo perché alcuni dei modelli che vedo disponibili, di solito varianti sull'RBM, non hanno necessariamente ovvie controparti discriminatorie analoghe a questi strati / modelli generativi e viceversa. Per esempio:

  • mcRBM

  • ssRBM

  • CRBM (sebbene si possa sostenere che la CNN abbia usato architetture feed forward sia l'architettura analoga discriminatoria)

Inoltre, questi erano chiaramente anche pre alexnet, dal 2010, 2011 e 2009 rispettosamente.


3
Per il gusto di farlo, ho creato un feed generativo in avanti NN attraverso la regressione automatica. power2predict.edublogs.org/2016/06/26/…
Chris

Risposte:


6

Questa è una specie di vecchia domanda, ma dal momento che chiede essenzialmente "migliori pratiche", piuttosto che ciò che è effettivamente tecnicamente possibile (cioè, non ha bisogno di troppa attenzione alla ricerca), le migliori pratiche attuali sono qualcosa come:

  • Gli RBM non sono normalmente utilizzati al momento
  • ove possibile vengono utilizzati modelli lineari (regressione lineare, regressione logistica)
  • in caso contrario reti di feed-forward profonde con layer come layer completamente connessi, layer convoluzionali e introduzione in una sorta di layer di regolarizzazione, come dropout e ultimamente normalizzazione batch
  • ovviamente con strati di attivazione nel mezzo, in genere ReLU, ma vengono usati anche tanh e sigmoid
  • e probabilmente alcuni max-pool (non sempre: vengono utilizzati anche pool medi e altri)

Per gli usi generativi, le tecniche comuni includono:


1

Di recente ho trovato questo documento su "Boltzmann Encoded Adversarial Machines" che integra le RBM con le CNN come modello generativo.

Gli autori dimostrano che in qualche modo è matematicamente "migliore" e mostrano alcuni esempi di giocattoli in cui BEAM sembra molto più capace di apprendere accuratamente la distribuzione dei dati rispetto ad altri modelli GAN.

Il benchmark del "mondo reale" dei volti di CelebA era molto meno impressionante: non è chiaro che BEAM faccia meglio o addirittura così come altri GAN popolari. Tuttavia, l'uso di RBM in questa impostazione è sicuramente interessante.


pensi che questo fallimento sia attribuito allo spazio di ricerca di BEAM consentendo una maggiore serie di gradi di libertà intrinseci alla definizione del modello?
Vass
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.