minimi locali vs punti di sella nell'apprendimento profondo


18

Ho sentito Andrew Ng (in un video che purtroppo non riesco più a trovare) parlare di come la comprensione dei minimi locali nei problemi di apprendimento profondo è cambiata nel senso che ora sono considerati meno problematici perché in spazi ad alta dimensione (incontrati in deep learning) è più probabile che i punti critici siano punti di sella o plateau piuttosto che minimi locali.

Ho visto articoli (ad esempio questo ) che discutono di ipotesi secondo le quali "ogni minimo locale è un minimo globale". Questi presupposti sono tutti piuttosto tecnici, ma da quello che capisco tendono a imporre una struttura sulla rete neurale che la rende in qualche modo lineare.

È un'affermazione valida che, nell'apprendimento profondo (incl. Architetture non lineari), gli altopiani sono più probabili dei minimi locali? E se è così, c'è un'intuizione (forse matematica) dietro di essa?

C'è qualcosa di particolare nell'apprendimento profondo e nei punti di sella?


12
Quando si tratta dell'intuizione matematica del perché un punto di sella è più probabile di un minimo locale, ci penserei in termini di caratteristiche. Per essere un minimo locale, deve essere un minimo locale in ogni direzione. Al contrario, per un punto di sella, solo 1 direzione deve essere diversa dalle altre. È molto più probabile che 1 o più abbiano comportamenti diversi rispetto agli altri, rispetto allo stesso comportamento in tutte le direzioni.
Paul,

3
grazie, ora che lo dici, è un po 'ovvio ... ecco alcune interessanti discussioni sull'argomento
oW_

4
Andrew Ng ha pubblicato un video su "Il problema dei minimi locali" nella seconda settimana del suo corso Coursera, "Migliorare le reti neurali profonde: ottimizzazione, regolarizzazione e ottimizzazione dell'iperparametro". Forse è quello che stai cercando.
mjul

dai un'occhiata qui
Media

Risposte:


7

Questo sta semplicemente cercando di trasmettere la mia intuizione, cioè nessun rigore. La cosa con i punti di sella è che sono un tipo di ottimale che combina una combinazione di minimi e massimi. Poiché il numero di dimensioni è così grande con l'apprendimento profondo, la probabilità che un ottimale sia costituito solo da una combinazione di minimi è molto bassa. Ciò significa che "rimanere bloccati" in un minimo locale è raro. A rischio di semplificazione eccessiva, è più difficile "rimanere bloccati" in un punto di sella perché è possibile "scorrere verso il basso di una delle dimensioni". Penso che il video di Andrew Ng a cui ti riferisci provenga dal corso Coursera su Deep Learning da lui.


13

D=[d1dn]
d1>0,,dn>0

d1,,dndi1/2didj, a causa dell'elevata non linearità della matrice hessiana, quindi prenderemo le probabilità che siano positive come eventi indipendenti.

P(d1>0,,dn>0)=P(d1>0)P(dn>0)=12n

1081/2n

Ma che dire di maxima?

1/2n

P(saddle)=1P(maximum)P(minimum)=112n12n=112n1

n

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.