Le reti di backprop completamente connesse (almeno strato a livello con più di 2 livelli nascosti) sono studenti universali. Sfortunatamente, sono spesso lenti ad imparare e tendono ad adattarsi eccessivamente o avere generalizzazioni imbarazzanti.
Da scherzare con queste reti, ho osservato che la potatura di alcuni dei bordi (in modo che il loro peso sia zero e impossibile da cambiare) tende a rendere le reti più veloci e generalizzare meglio. C'è una ragione per questo? È solo a causa di una diminuzione della dimensionalità dello spazio di ricerca dei pesi o c'è una ragione più sottile?
Inoltre, la migliore generalizzazione è un artefatto dei problemi "naturali" che sto osservando?