Un recente articolo The Loss Surfaces of Multilayer Networks offre alcune possibili spiegazioni per questo. Dal loro abstract (il grassetto è mio):
"Noi ipotizziamo che sia la ricottura simulata che la SGD convergano alla banda di punti critici bassi e che tutti i punti critici rilevati siano minimi locali di alta qualità misurati dall'errore del test. Ciò enfatizza una grande differenza tra reti di grandi e piccole dimensioni dove per quest'ultimo i minimi locali di scarsa qualità hanno probabilità diverse da zero di essere recuperati. Infine, dimostriamo che il recupero del minimo globale diventa più difficile con l'aumentare delle dimensioni della rete e che è praticamente irrilevante poiché il minimo globale spesso porta a un eccesso di adattamento . "
Molte delle persone influenti nel deep learning (Yann LeCunn e Yoshua Bengio per citarne alcuni) e alcuni ricercatori che provengono di più dal punto di vista matematico (Rong Ge e altri collaboratori di Sanjeev Arora) hanno discusso ed esplorato queste idee.
Nel documento di cui sopra, vedere la Figura 3, che mostra un fenomeno di banding / concentrazione dei valori minimi locali poiché le reti hanno più unità nascoste. La fascia / concentrazione rappresenta alcune prove empiriche che per i modelli più profondi o più grandi, un minimo locale è "abbastanza buono", poiché i loro valori di perdita sono approssimativamente simili. E, soprattutto, hanno una perdita che è più vicina al minimo globale man mano che il modello diventa più complesso (in questo caso più ampio, ma in pratica, più profondo).
Inoltre, usano un modello di spin-glass, che affermano addirittura che è solo un modello e non necessariamente indicativo del quadro reale, per mostrare che il raggiungimento del minimizer globale da un minimo locale può richiedere esponenzialmente lungo:
"Per trovare un ulteriore minimo minimo dobbiamo passare attraverso un punto di sella. Quindi dobbiamo salire almeno al livello in cui vi è un uguale numero di punti di sella per avere una discreta possibilità di trovare un percorso che potrebbe eventualmente prendere a un altro minimo locale. Questo processo richiede un tempo esponenzialmente lungo, quindi in pratica non è possibile trovare il minimo globale ".
La ricerca di Rong Ge è incentrata sulla rottura dei punti della sella. Yoshua Bengio e i suoi collaboratori hanno posto un'ipotesi piuttosto sfrontata su Saddle Point:
Qui sosteniamo, sulla base dei risultati della fisica statistica, della teoria delle matrici casuali, della teoria delle reti neurali e delle prove empiriche, che una difficoltà più profonda e più profonda origina dalla proliferazione di punti di sella, non minimi locali, specialmente in problemi di dimensioni elevate di interesse pratico . Tali punti di sella sono circondati da alti plateau di errori che possono rallentare drasticamente l'apprendimento e dare l'impressione illusoria dell'esistenza di un minimo locale.
fonte qui: Identificazione e attacco del problema del punto di sella nell'ottimizzazione non convessa ad alta dimensione.
In una certa misura, i due approcci di cui sopra non sono esattamente gli stessi (l'ipotesi del punto di sella potrebbe mettere in discussione ciò che è veramente un minimo locale e ciò che è semplicemente un punto di sella scarsamente condizionato con una regione altopiano molto lunga?). L'idea alla base dell'ipotesi del punto di sella è che è possibile progettare metodi di ottimizzazione per superare i punti di sella, ad esempio Newton senza sella dall'articolo di Bengio, per accelerare potenzialmente la convergenza e forse persino raggiungere l'ottimale globale. Il primo articolo Multilayer Loss Surface non riguarda davvero il raggiungimento dell'ottimale globale e in realtà ritiene che abbia alcune proprietà di overfitting inadeguate. Curiosamente, entrambi gli articoli usano idee di fisica statistica e modelli di spin-glass.
Ma sono in qualche modo collegati in quanto entrambi gli articoli credono che per raggiungere il minimizer globale, si debba superare la sfida di ottimizzazione dei punti di sella. Il primo articolo ritiene che i minimi locali siano abbastanza buoni.
È lecito chiedersi se i metodi momentum e altri nuovi algoritmi di ottimizzazione, che possono stimare alcune proprietà di curvatura del 2 ° ordine, possano sfuggire ai punti di sella. Una famosa animazione di Alec Radford qui .
Per rispondere alla tua domanda: "da dove viene questa convinzione" Penso personalmente che derivi dal fatto che è possibile utilizzare diversi semi casuali per apprendere pesi diversi, ma le reti corrispondenti hanno prestazioni quantitative simili. Ad esempio, se imposti due diversi semi casuali per l'inizializzazione del peso Glorot, probabilmente imparerai pesi diversi, ma se ti alleni usando metodi di ottimizzazione simili, le reti avranno prestazioni simili. Una credenza popolare comune è che il panorama dell'ottimizzazione è simile a quello di un cartone per uova, un altro buon post sul blog qui: niente più minimi locali? con l'analogia del cartone delle uova.
Modifica: volevo solo essere chiaro che l'analogia del cartone delle uova non è vera, altrimenti non ci sarebbe bisogno di slancio o altre tecniche di ottimizzazione più avanzate. Ma è noto che SGD non funziona come SGD + Momentum o algoritmi di ottimizzazione più moderni, forse a causa dell'esistenza di punti di sella.