Nelle reti neurali, perché usare metodi a gradiente piuttosto che altre metaeuristiche?

20

Nell'addestramento di reti neurali profonde e superficiali, perché sono comunemente usati i metodi a gradiente (ad es. Discesa a gradiente, Nesterov, Newton-Raphson) rispetto ad altre metaeuristiche?

Per metaeuristica intendo metodi come ricottura simulata, ottimizzazione delle colonie di formiche, ecc., Che sono stati sviluppati per evitare di rimanere bloccati in un minimo locale.

— Lior
fonte

1

FYI È possibile addestrare una rete neurale senza backpropagation?

— Franck Dernoncourt,

13

Estensione della risposta di @Dikran Marsupial ....

Anna Choromanska e i suoi colleghi del gruppo di Yan LeCunn alla New York University, lo affrontano nel loro documento AISTATS del 2014 "The Loss Surface of Multilayer Nets" . Usando la teoria delle matrici casuali, insieme ad alcuni esperimenti, sostengono che:

Per reti di grandi dimensioni, la maggior parte dei minimi locali sono equivalenti e producono prestazioni simili su un set di test.

La probabilità di trovare un minimo locale "cattivo" (valore elevato) è diversa da zero per le reti di piccole dimensioni e diminuisce rapidamente con le dimensioni delle reti.

Lottare per trovare il minimo globale sul set di addestramento (al contrario di uno dei tanti buoni locali) non è utile nella pratica e può portare a un eccesso di adattamento.

[Da pagina 2 del documento]

In questa prospettiva, non esiste un motivo valido per implementare approcci pesanti per trovare il minimo globale. Sarebbe meglio passare questo tempo a provare nuove topologie di rete, funzionalità, set di dati, ecc.

Detto questo, molte persone hanno pensato di aumentare o sostituire SGD. Per reti abbastanza piccole (secondo gli standard contemporanei), queste metanuristiche migliorate sembrano fare qualcosa che Mavrovouniotis e Yang (2016) mostrano che l'ottimizzazione delle colonie di formiche + backprop batte backprop non modificato su diversi set di dati di riferimento (anche se non di molto). Rere el al. (2015) usano la ricottura simulata per addestrare una CNN e scoprire che inizialmente ha prestazioni migliori sul set di validazione. Dopo 10 epoche, tuttavia, rimane solo una differenza molto piccola (e non testata per il significato) delle prestazioni. Il vantaggio più rapido di convergenza per epoca è anche compensato da una quantità drammaticamente maggiore di tempo di calcolo per epoca, quindi questa non è una vittoria ovvia per la ricottura simulata.

È possibile che queste euristiche facciano un lavoro migliore nell'inizializzare la rete e una volta che è stata indicata la strada giusta, qualsiasi ottimizzatore farà. Sutskever et al. (2013) del gruppo di Geoff Hinton sostengono qualcosa del genere nel loro articolo dell'ICML del 2013 .

— Matt Krause
fonte

17

I minimi locali non sono un problema così grave con le reti neurali come spesso viene suggerito. Alcuni dei minimi locali sono dovuti alla simmetria della rete (cioè puoi permutare i neuroni nascosti e lasciare la funzionedella rete invariato. Tutto ciò che serve è trovare buoni minimi locali, piuttosto che minimi globali. Dal momento che accade che l'ottimizzazione aggressiva di un modello molto flessibile, come una rete neurale, sia probabilmente una ricetta per il sovradimensionamento dei dati, quindi l'uso di ricottura simulata per trovare i minimi globali del criterio di addestramento probabilmente darà una rete neurale peggio prestazione di generalizzazione rispetto a quella allenata dalla discesa gradiente che finisce in un minimo locale. Se vengono utilizzati questi metodi di ottimizzazione euristica, consiglierei di includere un termine di regolarizzazione per limitare la complessità del modello.

... o in alternativa utilizzare ad esempio un metodo kernel o un modello di funzione di base radiale, che probabilmente sarà meno problematico.

— Dikran Marsupial
fonte