Perché le persone non usano RBF più profondi o RBF in combinazione con MLP?


12

Quindi, quando guardo le reti neurali con funzione di base radiale, ho notato che le persone raccomandano sempre e solo l'uso di 1 strato nascosto, mentre con le reti neurali percettrici multistrato più strati sono considerati migliori.

Dato che le reti RBF possono essere addestrate con la versione della propagazione posteriore, ci sono dei motivi per cui le reti RBF più profonde non funzionano o che un livello RBF non può essere usato come il penultimo o primo livello in una rete MLP profonda? (Stavo pensando al penultimo strato in modo che potesse essenzialmente essere addestrato sulle funzionalità apprese dai precedenti livelli MLP)


Non sono un esperto di NN, ma la mia impressione è che con NN feed-forward standard, più livelli nascosti in genere non aggiungono molto.
gung - Ripristina Monica

1
Ciò avveniva nei giorni precedenti della ricerca sulla NN, tuttavia ora più livelli sono in genere la ricetta per prestazioni migliori (apprendimento approfondito). Penso che l'attuale approccio preferito sia un'inizializzazione intelligente, il maggior numero possibile di livelli, la regolarizzazione tramite dropout e softmax anziché attivazioni sigmoidali per evitare la saturazione. (Ma potrei sbagliarmi sulle tecniche). Penso che alcune persone utilizzino anche l'approfondimento iterativo per ottenere risultati migliori. Inoltre, Google ha ottenuto lo stato dell'arte su imageNet nel 2014 con una rete a 100 strati.
user1646196,

Risposte:


4

Il problema fondamentale è che gli RBF sono a) troppo non lineari, b) non effettuano la riduzione dimensionale.

a causa di a) gli RBF sono stati sempre allenati con k-medie piuttosto che con discesa gradiente.

Direi che il successo principale in Deep NNs sono le reti di conio, dove una delle parti chiave è la riduzione dimensionale: sebbene lavorando con diciamo 128x128x3 = 50.000 input, ogni neurone ha un campo ricettivo limitato e ci sono molti meno neuroni in ogni strato .In un dato livello in una MLP- ogni neurone rappresenta una caratteristica / dimensione) in modo da ridurre costantemente la dimensionalità (passando da uno strato all'altro).

Sebbene si possa rendere adattabile la matrice di covarianza RBF e così ridurre la dimensione, ciò rende ancora più difficile la formazione.


Di recente ho letto un documento che proponeva un algoritmo di retro-propagazione per l'addestramento delle reti RBF. Dato questo potrebbe essere un vantaggio avere un RBF come strato finale in una rete profonda? Suppongo che in questa forma il resto della rete profonda essenzialmente
rileverebbe

forse dovresti collegarti al documento e quindi le persone possono dare risposte più informate. Non vedo alcun vantaggio ... dato che l'RBF è troppo non lineare (e ad esempio i sigmoidi sono stati sostituiti da relu perché erano gradienti di sfumatura troppo non lineari ...). Quello che la gente fa è allenarsi con una rete conv con mlp standard in alto, quindi gettare mlp e usare svm
seanv507

L'articolo è "Formazione delle reti RBF con backpropagation selettiva" non sono sicuro di poterlo leggere qui o se esiste un paywall sciencedirect.com/science/article/pii/S0925231203005411 . Non sapevo che i sigmoidi fossero stati sostituiti da relu a causa della non linearità, ma dato che posso vedere come una maggiore non linearità sarebbe evitata. Contrassegnerò la risposta come accettata :)
user1646196
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.