Ci sono due lacune principali nella nostra comprensione delle reti neurali: durezza di ottimizzazione e prestazioni di generalizzazione.
La formazione di una rete neurale richiede la risoluzione di un problema di ottimizzazione altamente non convesso in dimensioni elevate. Gli attuali algoritmi di allenamento sono tutti basati sulla discesa del gradiente, che garantisce solo la convergenza a un punto critico (minimo locale o sella). Infatti, Anandkumar & Ge 2016 hanno recentemente dimostrato che trovare un minimo locale è NP-difficile, il che significa che (supponendo P! = NP) esistono "cattivi", difficili da sfuggire, punti di sella nella superficie dell'errore.
Tuttavia, questi algoritmi di addestramento sono empiricamente efficaci per molti problemi pratici e non sappiamo perché.
Ci sono stati articoli teorici come Choromanska et al. 2016 e Kawaguchi 2016che dimostrano che, in base a determinate ipotesi, i minimi locali sono essenzialmente buoni quanto i minimi globali, ma le ipotesi che fanno sono in qualche modo irrealistiche e non affrontano la questione dei punti di sella cattivi.
L'altro divario principale nella nostra comprensione è la performance di generalizzazione: quanto bene il modello si comporta su nuovi esempi non visti durante l'allenamento? È facile dimostrare che nel limite di un numero infinito di esempi di addestramento (iid campionato da una distribuzione stazionaria), l'errore di addestramento converge all'errore atteso su nuovi esempi (a condizione che tu possa allenarti all'ottimale globale), ma dal momento che noi non abbiamo infiniti esempi di allenamento, siamo interessati a quanti esempi sono necessari per ottenere una data differenza tra allenamento e errore di generalizzazione. La teoria dell'apprendimento statistico studia questi limiti di generalizzazione.
Empiricamente, la formazione di una grande rete neurale moderna richiede un gran numero di esempi di formazione (Big Data, se vi piacciono le parole d'ordine), ma non così grandi da essere praticamente impossibili. Ma se applichi i limiti più noti della teoria dell'apprendimento statistico (ad esempio Gao & Zhou 2014 ), in genere ottieni questi numeri incredibilmente enormi. Pertanto questi limiti sono ben lungi dall'essere stretti, almeno per problemi pratici.
Uno dei motivi potrebbe essere che questi limiti tendono ad assumere molto poco sulla distribuzione generatrice di dati, quindi riflettono le prestazioni nel caso peggiore rispetto agli ambienti avversari, mentre gli ambienti "naturali" tendono ad essere più "apprendibili".
È possibile scrivere limiti di generalizzazione dipendenti dalla distribuzione, ma non sappiamo come caratterizzare formalmente una distribuzione su ambienti "naturali". Approcci come la teoria dell'informazione algoritmica sono ancora insoddisfacenti.
Pertanto non sappiamo ancora perché le reti neurali possano essere addestrate senza un eccessivo adattamento.
Inoltre, va notato che queste due questioni principali sembrano essere correlate in un modo ancora poco compreso: i limiti di generalizzazione dalla teoria dell'apprendimento statistico presuppongono che il modello sia addestrato all'ottimale globale sul set di addestramento, ma in un contesto pratico non formerebbe mai una rete neurale fino alla convergenza fino a un punto di sella, in quanto ciò causerebbe in genere un eccesso di adattamento. Invece interrompi l'allenamento quando l'errore su un set di convalida (che è un proxy per l'errore di generalizzazione) smette di migliorare. Questo è noto come "arresto anticipato".
Quindi, in un certo senso, tutta questa ricerca teorica sulla delimitazione dell'errore di generalizzazione dell'ottimale globale può essere abbastanza irrilevante: non solo non possiamo trovarlo in modo efficiente, ma anche se potessimo, non vorremmo, dal momento che peggiorerebbe nuovi esempi di molte soluzioni "non ottimali".
Può darsi che la durezza dell'ottimizzazione non sia un difetto della rete neurale, al contrario, forse le reti neurali possono funzionare proprio perché sono difficili da ottimizzare.
Tutte queste osservazioni sono empiriche e non esiste una buona teoria che le spieghi. Non esiste inoltre alcuna teoria che spieghi come impostare gli iperparametri delle reti neurali (larghezza e profondità dello strato nascosto, velocità di apprendimento, dettagli architettonici, ecc.). I professionisti usano la loro intuizione affinata dall'esperienza e da molte prove ed errori per trovare valori efficaci, mentre una teoria potrebbe permetterci di progettare reti neurali in modo più sistematico.