C'è davvero una mancanza di teoria fondamentale sull'apprendimento profondo?


10

Ho sentito più volte che uno dei problemi fondamentali / aperti dell'apprendimento profondo è la mancanza di "teoria generale" perché in realtà non sappiamo perché l'apprendimento profondo funzioni così bene. Anche la pagina di Wikipedia sull'apprendimento profondo ha commenti simili . Tali dichiarazioni sono credibili e rappresentative dello stato del campo?

Risposte:


5

C'è un documento intitolato Perché il Deep Learning funziona così bene? .

"Tuttavia, non è ancora del tutto chiaro il motivo per cui il deep learning funziona così bene. A differenza degli algoritmi GOFAI (" buona intelligenza artificiale vecchio stile ") che sono realizzati a mano e completamente compresi analiticamente, molti algoritmi che utilizzano reti neurali artificiali sono compresi solo a a livello euristico, in cui sappiamo empiricamente che determinati protocolli di formazione che impiegano grandi set di dati porteranno a prestazioni eccellenti. Questo ricorda la situazione del cervello umano: sappiamo che se formiamo un bambino secondo un determinato curriculum, imparerà abilità - ma ci manca una profonda comprensione di come il suo cervello riesce a raggiungere questo obiettivo ".


3

Questo è molto vero. I modelli di apprendimento profondo, anche quelli poco profondi come gli autoencoder e le reti neurali in pila, non sono completamente compresi. Ci sono sforzi per capire cosa sta succedendo al processo di ottimizzazione per una funzione così intensa variabile così complessa. Ma questo è un compito difficile.

Un modo che i ricercatori stanno usando per scoprire come funziona il deep learning è usando modelli generativi. Innanzitutto formiamo un algoritmo di apprendimento e lo ostacoliamo sistematicamente mentre gli chiediamo di generare esempi. Osservando gli esempi generati risultanti saremo in grado di dedurre ciò che sta accadendo nell'algoritmo a un livello più significativo. È molto simile all'uso degli inibitori nelle neuroscienze per capire a cosa servono i diversi componenti del cervello. Ad esempio, sappiamo che la corteccia visiva è dove si trova perché se la danneggiamo diventerai cieco.


2

Probabilmente dipende da cosa si intende per "teoria fondamentale", ma non manca la rigorosa teoria quantitativa nell'apprendimento profondo, alcune delle quali è molto generale, nonostante le affermazioni contrarie.

Un buon esempio è il lavoro sui metodi basati sull'energia per l'apprendimento. Vedi ad esempio il lavoro di Neal & Hinton sull'inferenza variazionale e l'energia libera: http://www.cs.toronto.edu/~fritz/absps/emk.pdf

Anche questa guida alla minimizzazione energetica come "quadro teorico comune per molti modelli di apprendimento" di Yann LeCun e colleghi: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf

E un quadro generale per i modelli basati sull'energia di Scellier e Bengio: https://arxiv.org/pdf/1602.05179.pdf

C'è anche il precedente lavoro di Hinton & Sejnowski che mostra analiticamente che una particolare rete ispirata a Hopfield + un algoritmo di apprendimento non supervisionato può approssimare l'inferenza ottimale di Bayes: https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983 -646.pdf

Esistono molti articoli che collegano l'apprendimento profondo anche con le neuroscienze teoriche, come il seguente, che mostrano che gli effetti della backpropagation possono essere raggiunti in architetture neurali biologicamente plausibili: https://arxiv.org/pdf/1411.0247.pdf

Certamente ci sono molte domande aperte e nessuna teoria unificata, non incontroverisale, ma lo stesso si può dire di quasi tutti i campi.


1

La tua citazione su Wikipedia è discutibile perché il deep learning è ben sviluppato. In effetti, c'è un [citation needed]sulla pagina di Wikipedia.

Guarda https://github.com/terryum/awesome-deep-learning-papers . Ci sono circa 100 articoli nel link, pensi ancora che l'apprendimento profondo manchi di "teoria generale"?

Sì. L'apprendimento profondo è difficile da capire perché è un modello molto complicato. Ma ciò non significa che non abbiamo le teorie.

Forse il limepacchetto e la carta sono: "Perché dovrei fidarmi di te?": Spiegare le previsioni di qualsiasi classificatore ti aiuterà. Il documento suggerisce che dovremmo essere in grado di approssimare un modello complicato (include l'apprendimento profondo) localmente con un modello molto più semplice.


3
Molte applicazioni interessanti non significano che quelle applicazioni sono state sviluppate seguendo un processo rigoroso. "Hmm ... forse dovrei provare 8 strati invece? Ah .. funziona! Fantastico, pubblichiamo i risultati."
Chris Anderson,

2
"L'apprendimento profondo è difficile da capire perché è un modello molto complicato. Ma ciò non significa che non abbiamo le teorie." Vero, ma anche noi non abbiamo le teorie. C'è ben poca comprensione matematica delle tecniche in letteratura. La maggior parte delle spiegazioni su come o perché il deep learning funziona si basano sull'intuizione e sull'empirismo, il che va bene, ma non costituisce una teoria imo.
user27182

0

Una domanda chiave che rimane nella teoria del deep learning è perché tali enormi modelli (con molti più parametri rispetto ai punti dati) non si adattano eccessivamente ai set di dati che utilizziamo.

La teoria classica basata su misure di complessità non spiega il comportamento delle reti neurali pratiche. Ad esempio, le stime della dimensione VC forniscono limiti di generalizzazione vuoti. Per quanto ne so, i limiti più stretti (superiore e inferiore) sulla dimensione VC sono indicati in [1] e sono nell'ordine del numero di pesi nella rete. Chiaramente questa complessità del caso peggiore non può spiegare come, ad esempio, una grande resnet generalizzi su CIFAR o MNIST.

Di recente ci sono stati altri tentativi di garantire la generalizzazione delle reti neurali, ad esempio in relazione al kernel tangente neurale o mediante varie misure di norma sui pesi. Rispettivamente, si è scoperto che questi non si applicano a reti di dimensioni reali e che hanno altre proprietà insoddisfacenti [2].

C'è qualche lavoro nel framework PAC Bayes per limiti non vacui, ad esempio [3]. Queste configurazioni, tuttavia, richiedono una certa conoscenza dell'addestramento della rete e quindi hanno un sapore diverso dall'analisi PAC classica.

Alcuni altri aspetti:

  • ottimizzazione: come mai otteniamo soluzioni "buone" dalla discesa graduale su un problema così non convesso? (Ci sono alcune risposte a questo nella letteratura recente)

  • interpretabilità: possiamo spiegare a livello intuitivo che cosa sta "pensando" la rete? (Non la mia zona)

riferimenti (incompleti):


0

Vorrei sottolineare che non esiste una buona teoria sul perché l'apprendimento automatico funzioni in generale. I limiti del VC assumono ancora un modello, ma la realtà non si adatta a nessuno di questi ideali matematici. Alla fine, quando si tratta di un'applicazione, tutto si riduce a risultati imperativi. Anche quantificare la somiglianza tra le immagini usando un algoritmo coerente con la comprensione intuitiva dell'uomo è davvero difficile

Comunque NN non funziona bene nella sua forma completamente connessa. Tutte le reti di successo hanno una sorta di regolarizzazione integrata nell'architettura di rete (CNN, LSTM, ecc.).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.