Che cos'è il pretrattamento e come si predica una rete neurale?


10

Comprendo che il pretrattamento viene utilizzato per evitare alcuni dei problemi con la formazione convenzionale. Se uso la backpropagation con, diciamo un codificatore automatico, so che mi imbatterò in problemi di tempo perché la backpropagation è lenta, e anche che posso rimanere bloccato in optima locale e non apprendere alcune funzionalità.

Quello che non capisco è il modo in cui predichiamo una rete e ciò che specificamente facciamo per predicare. Ad esempio, se ci viene data una pila di macchine Boltzmann riservate, come potremmo preprimere questa rete?


2
A meno che non ci si trovi in ​​un ambiente con solo pochi campioni etichettati e molti senza etichetta, la pre-produzione è considerata obsoleta. In caso contrario, l'utilizzo di una funzione di trasferimento del raddrizzatore e gli ottimizzatori avanzati (rmsprop, adadelta, adam) funzionano altrettanto bene per le reti neurali profonde. f(x)=max(x,0)
Bayerj,

Sì, sto lavorando supponendo che ci sia una grande quantità di campioni senza etichetta e pochi o nessun campione etichettato.
Michael Yousef,

Risposte:


2

Si inizia addestrando ciascun RBM nello stack separatamente e quindi si combina in un nuovo modello che può essere ulteriormente ottimizzato.

Supponiamo che tu abbia 3 RBM, alleni RBM1 con i tuoi dati (ad esempio un mucchio di immagini). RBM2 è addestrato con l'output di RBM1. RBM3 è addestrato con l'output di RBM2. L'idea è che ogni modello RBM sia rappresentativo delle immagini e dei pesi che apprendono nel fare ciò sono utili in altri compiti discriminatori come la classificazione.


0

Pretrattare un RBM in pila significa minimizzare avidamente a strati l'energia definita, cioè massimizzare la probabilità. G. Hinton ha proposto l'algoritmo CD-k, che può essere visto come una singola iterazione del campionamento di Gibbs.


Quindi la pretrattamento dell'RBM in pila ci consente di ridurre al minimo l'energia definita e ottenere risultati migliori. E poi l'algoritmo Contrastive Divergence di Hinton è il modo in cui si farebbe davvero a pretendere. In che modo la predicazione influisce esattamente sull'apprendimento di funzioni extra? Presumo per il problema della velocità, l'algoritmo CD è molto più veloce della backpropagation.
Michael Yousef,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.