Perché le reti neurali sembrano funzionare meglio con restrizioni poste sulla loro topologia?


29

Le reti di backprop completamente connesse (almeno strato a livello con più di 2 livelli nascosti) sono studenti universali. Sfortunatamente, sono spesso lenti ad imparare e tendono ad adattarsi eccessivamente o avere generalizzazioni imbarazzanti.

Da scherzare con queste reti, ho osservato che la potatura di alcuni dei bordi (in modo che il loro peso sia zero e impossibile da cambiare) tende a rendere le reti più veloci e generalizzare meglio. C'è una ragione per questo? È solo a causa di una diminuzione della dimensionalità dello spazio di ricerca dei pesi o c'è una ragione più sottile?

Inoltre, la migliore generalizzazione è un artefatto dei problemi "naturali" che sto osservando?

Risposte:


9

Un minor numero di nodi / spigoli (o spigoli con pesi fissi) significa che ci sono meno parametri i cui valori devono essere trovati, e questo in genere riduce il tempo di apprendimento. Inoltre, quando ci sono meno parametri, lo spazio che può essere espresso dalla rete neurale ha meno dimensioni, quindi la rete neurale può esprimere solo modelli più generali. È quindi meno in grado di adattare eccessivamente i dati, e quindi i modelli sembreranno più generali.


5

Potando i bordi hai ridotto lo spazio di ricerca per l'algoritmo di allenamento, che avrà un payoff immediato nelle prestazioni nel tempo. Hai anche introdotto vincoli sulle funzioni che la rete può modellare. I vincoli possono costringere il tuo modello a trovare una soluzione più generale poiché quella più accurata è irraggiungibile. Una tecnica comune per l'addestramento delle reti neurali sta usando una tecnica di discesa gradiente. Un'altra conseguenza della potatura potrebbe essere che hai eliminato alcuni minimi locali nel panorama dei parametri che consente nuovamente all'algoritmo di allenamento di trovare una soluzione migliore.

Non sarei sorpreso se la tua migliore generalizzazione è legata ai problemi che stai osservando. Ho avuto successo con le reti neurali in cui il modello sottostante ha una struttura continua, mentre i casi in cui ci sono discontinuità le cose non hanno funzionato così bene. Tieni presente anche che le prestazioni della rete neurale sono spesso intimamente correlate al modo in cui strutturi l'input e l'output.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.