Ho sentito Andrew Ng (in un video che purtroppo non riesco più a trovare) parlare di come la comprensione dei minimi locali nei problemi di apprendimento profondo è cambiata nel senso che ora sono considerati meno problematici perché in spazi ad alta dimensione (incontrati in deep learning) è più probabile che i punti critici siano punti di sella o plateau piuttosto che minimi locali.
Ho visto articoli (ad esempio questo ) che discutono di ipotesi secondo le quali "ogni minimo locale è un minimo globale". Questi presupposti sono tutti piuttosto tecnici, ma da quello che capisco tendono a imporre una struttura sulla rete neurale che la rende in qualche modo lineare.
È un'affermazione valida che, nell'apprendimento profondo (incl. Architetture non lineari), gli altopiani sono più probabili dei minimi locali? E se è così, c'è un'intuizione (forse matematica) dietro di essa?
C'è qualcosa di particolare nell'apprendimento profondo e nei punti di sella?