Comprensione "quasi tutti i minimi locali hanno un valore di funzione molto simile all'ottimale globale"


46

In un recente post sul blog di Rong Ge, si diceva che:

Si ritiene che per molti problemi tra cui l'apprendimento di reti profonde, quasi tutti i minimi locali abbiano un valore di funzione molto simile all'ottimale globale, e quindi trovare un minimo locale è abbastanza buono.

Da dove viene questa convinzione?


15
Sarò sorpreso se questa non è una scoperta empirica.
usεr11852 dice Reinstate Monic il

Risposte:


69

Un recente articolo The Loss Surfaces of Multilayer Networks offre alcune possibili spiegazioni per questo. Dal loro abstract (il grassetto è mio):

"Noi ipotizziamo che sia la ricottura simulata che la SGD convergano alla banda di punti critici bassi e che tutti i punti critici rilevati siano minimi locali di alta qualità misurati dall'errore del test. Ciò enfatizza una grande differenza tra reti di grandi e piccole dimensioni dove per quest'ultimo i minimi locali di scarsa qualità hanno probabilità diverse da zero di essere recuperati. Infine, dimostriamo che il recupero del minimo globale diventa più difficile con l'aumentare delle dimensioni della rete e che è praticamente irrilevante poiché il minimo globale spesso porta a un eccesso di adattamento . "

Molte delle persone influenti nel deep learning (Yann LeCunn e Yoshua Bengio per citarne alcuni) e alcuni ricercatori che provengono di più dal punto di vista matematico (Rong Ge e altri collaboratori di Sanjeev Arora) hanno discusso ed esplorato queste idee.

Nel documento di cui sopra, vedere la Figura 3, che mostra un fenomeno di banding / concentrazione dei valori minimi locali poiché le reti hanno più unità nascoste. La fascia / concentrazione rappresenta alcune prove empiriche che per i modelli più profondi o più grandi, un minimo locale è "abbastanza buono", poiché i loro valori di perdita sono approssimativamente simili. E, soprattutto, hanno una perdita che è più vicina al minimo globale man mano che il modello diventa più complesso (in questo caso più ampio, ma in pratica, più profondo).

Inoltre, usano un modello di spin-glass, che affermano addirittura che è solo un modello e non necessariamente indicativo del quadro reale, per mostrare che il raggiungimento del minimizer globale da un minimo locale può richiedere esponenzialmente lungo:

"Per trovare un ulteriore minimo minimo dobbiamo passare attraverso un punto di sella. Quindi dobbiamo salire almeno al livello in cui vi è un uguale numero di punti di sella per avere una discreta possibilità di trovare un percorso che potrebbe eventualmente prendere a un altro minimo locale. Questo processo richiede un tempo esponenzialmente lungo, quindi in pratica non è possibile trovare il minimo globale ".

La ricerca di Rong Ge è incentrata sulla rottura dei punti della sella. Yoshua Bengio e i suoi collaboratori hanno posto un'ipotesi piuttosto sfrontata su Saddle Point:

Qui sosteniamo, sulla base dei risultati della fisica statistica, della teoria delle matrici casuali, della teoria delle reti neurali e delle prove empiriche, che una difficoltà più profonda e più profonda origina dalla proliferazione di punti di sella, non minimi locali, specialmente in problemi di dimensioni elevate di interesse pratico . Tali punti di sella sono circondati da alti plateau di errori che possono rallentare drasticamente l'apprendimento e dare l'impressione illusoria dell'esistenza di un minimo locale.

fonte qui: Identificazione e attacco del problema del punto di sella nell'ottimizzazione non convessa ad alta dimensione.

In una certa misura, i due approcci di cui sopra non sono esattamente gli stessi (l'ipotesi del punto di sella potrebbe mettere in discussione ciò che è veramente un minimo locale e ciò che è semplicemente un punto di sella scarsamente condizionato con una regione altopiano molto lunga?). L'idea alla base dell'ipotesi del punto di sella è che è possibile progettare metodi di ottimizzazione per superare i punti di sella, ad esempio Newton senza sella dall'articolo di Bengio, per accelerare potenzialmente la convergenza e forse persino raggiungere l'ottimale globale. Il primo articolo Multilayer Loss Surface non riguarda davvero il raggiungimento dell'ottimale globale e in realtà ritiene che abbia alcune proprietà di overfitting inadeguate. Curiosamente, entrambi gli articoli usano idee di fisica statistica e modelli di spin-glass.

Ma sono in qualche modo collegati in quanto entrambi gli articoli credono che per raggiungere il minimizer globale, si debba superare la sfida di ottimizzazione dei punti di sella. Il primo articolo ritiene che i minimi locali siano abbastanza buoni.

È lecito chiedersi se i metodi momentum e altri nuovi algoritmi di ottimizzazione, che possono stimare alcune proprietà di curvatura del 2 ° ordine, possano sfuggire ai punti di sella. Una famosa animazione di Alec Radford qui .

Per rispondere alla tua domanda: "da dove viene questa convinzione" Penso personalmente che derivi dal fatto che è possibile utilizzare diversi semi casuali per apprendere pesi diversi, ma le reti corrispondenti hanno prestazioni quantitative simili. Ad esempio, se imposti due diversi semi casuali per l'inizializzazione del peso Glorot, probabilmente imparerai pesi diversi, ma se ti alleni usando metodi di ottimizzazione simili, le reti avranno prestazioni simili. Una credenza popolare comune è che il panorama dell'ottimizzazione è simile a quello di un cartone per uova, un altro buon post sul blog qui: niente più minimi locali? con l'analogia del cartone delle uova.

Modifica: volevo solo essere chiaro che l'analogia del cartone delle uova non è vera, altrimenti non ci sarebbe bisogno di slancio o altre tecniche di ottimizzazione più avanzate. Ma è noto che SGD non funziona come SGD + Momentum o algoritmi di ottimizzazione più moderni, forse a causa dell'esistenza di punti di sella.


14
+1 Una risposta straordinariamente informativa e autorevole: in pochi paragrafi facilmente comprensibili sembra catturare le idee e le direzioni attuali all'interno di un sottocampo significativo.
whuber

La ringrazio per la risposta. Dal momento che hai citato Yann LeCun, potresti forse indicare un suo riferimento particolare che discute di queste o idee simili?
John Donn,

2
Ehi John: l'articolo Loss Surface of Multilayer Nets a cui ho fatto riferimento nel post è scritto da Yann. Un altro articolo simile che Yann è stato coautore di Explorations su paesaggi ad alta dimensione . I due articoli sono piuttosto simili, quello a cui ho fatto riferimento in origine sembra essere più popolare.
Indie AI

Il link "Niente più minimi locali" è morto. Attraverso una rapida ricerca su Google non sono riuscito a trovare il post sul blog a cui si riferisce. Il post sul blog è offline? O semplicemente spostato?
LMB,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.