Quali componenti modificabili di un sistema di apprendimento sono responsabili del suo successo o fallimento? Quali modifiche apportate a loro migliorano le prestazioni? Questo è stato chiamato il problema fondamentale della cessione del credito (Minsky, 1963). Esistono metodi generali di assegnazione del credito per solutori di problemi universali che sono ottimali in termini di tempo in vari sensi teorici (Sez. 6.8). Il presente sondaggio, tuttavia, si concentrerà sul sottocampo più ristretto, ma ora commercialmente importante, del Deep Learning (DL) in Artificial Neural Networks (NNs).
Una rete neurale standard (NN) è costituita da molti processori semplici e connessi chiamati neuroni, ognuno dei quali produce una sequenza di attivazioni a valore reale. I neuroni di input vengono attivati attraverso sensori che percepiscono l'ambiente, altri neuroni vengono attivati attraverso connessioni ponderate da neuroni precedentemente attivi (dettagli nel Sez. 2). Alcuni neuroni possono influenzare l'ambiente innescando azioni. L'apprendimento o l'attribuzione del credito riguardano la ricerca di pesi che inducano la NN a mostrare il comportamento desiderato, come guidare un'auto. A seconda del problema e del modo in cui i neuroni sono collegati, tale comportamento può richiedere lunghe catene causali di stadi computazionali (Sez. 3), in cui ogni stadio trasforma (spesso in modo non lineare) l'attivazione aggregata della rete. Il Deep Learning consiste nell'assegnare con precisione credito in molte di queste fasi.
Modelli poco profondi simili a NN con pochi di questi stadi sono in circolazione da molti decenni se non secoli (Sez. 5.1). I modelli con diversi strati successivi non lineari di neuroni risalgono almeno agli anni '60 (Sez. 5.3) e agli anni '70 (Sez. 5.5). Un metodo efficiente di discesa gradiente per l'apprendimento supervisionato (SL) basato sugli insegnanti in reti discrete e differenziabili di profondità arbitraria chiamato backpropagation (BP) è stato sviluppato negli anni '60 e '70 e applicato alle NN nel 1981 (sec. 5.5). L'addestramento basato su BP di NN profonde con molti strati, tuttavia, era stato trovato in pratica difficile alla fine degli anni '80 (Sez. 5.6), ed era diventato un argomento di ricerca esplicito all'inizio degli anni '90 (Sez. 5.9). DL è diventato praticamente fattibile in una certa misura grazie all'aiuto di Unsupervised Learning (UL), ad es. Sez. 5.10 (1991), Sez. 5.15 (2006). Gli anni '90 e 2000 hanno visto anche molti miglioramenti del DL puramente supervisionato (Sez. 5). Nel nuovo millennio, le NN profonde hanno finalmente attirato l'attenzione diffusa, soprattutto sovraperformando i metodi alternativi di apprendimento automatico come le macchine kernel (Vapnik, 1995; Scholkopf et al., 1998) in numerose importanti applicazioni. In effetti, dal 2009, le NN profonde supervisionate hanno vinto molte competizioni ufficiali internazionali per il riconoscimento di modelli (ad es. Sez. 5.17, 5.19, 5.21, 5.22), ottenendo il primo riconoscimento sovrumano di modelli visivi in domini limitati (Sez. 5.19, 2011). Le NN profonde sono anche diventate rilevanti per il campo più generale dell'apprendimento per rinforzo (RL) in cui non esiste un insegnante supervisore (Sez. 6). soprattutto sovraperformando metodi alternativi di apprendimento automatico come le macchine kernel (Vapnik, 1995; Scholkopf et al., 1998) in numerose importanti applicazioni. In effetti, dal 2009, le NN profonde supervisionate hanno vinto molte competizioni ufficiali internazionali per il riconoscimento di modelli (ad es. Sez. 5.17, 5.19, 5.21, 5.22), ottenendo il primo riconoscimento sovrumano di modelli visivi in domini limitati (Sez. 5.19, 2011). Le NN profonde sono anche diventate rilevanti per il campo più generale dell'apprendimento per rinforzo (RL) in cui non esiste un insegnante supervisore (Sez. 6). soprattutto sovraperformando metodi alternativi di apprendimento automatico come le macchine kernel (Vapnik, 1995; Scholkopf et al., 1998) in numerose importanti applicazioni. In effetti, dal 2009, le NN profonde supervisionate hanno vinto molte competizioni ufficiali internazionali per il riconoscimento di modelli (ad es. Sez. 5.17, 5.19, 5.21, 5.22), ottenendo il primo riconoscimento sovrumano di modelli visivi in domini limitati (Sez. 5.19, 2011). Le NN profonde sono anche diventate rilevanti per il campo più generale dell'apprendimento per rinforzo (RL) in cui non esiste un insegnante supervisore (Sez. 6). il raggiungimento del primo riconoscimento sovrumano di pattern visivi porta a domini limitati (Sez. 5.19, 2011). Le NN profonde sono anche diventate rilevanti per il campo più generale dell'apprendimento per rinforzo (RL) in cui non esiste un insegnante supervisore (Sez. 6). il raggiungimento del primo riconoscimento sovrumano di pattern visivi porta a domini limitati (Sez. 5.19, 2011). Le NN profonde sono anche diventate rilevanti per il campo più generale dell'apprendimento per rinforzo (RL) in cui non esiste un insegnante supervisore (Sez. 6).
D'altra parte, non sono sicuro che sia necessariamente redditizio cercare di costruire una tassonomia di secchi reciprocamente esclusivi per le strategie di apprendimento automatico. Penso che possiamo dire che ci sono prospettive da cui i modelli possono essere visti come reti neurali. Non penso che la prospettiva sia necessariamente la migliore o utile in tutti i contesti. Ad esempio, sto ancora pianificando di riferirsi a foreste casuali e alberi a gradiente potenziato come "insiemi di alberi" invece di sottrarre le loro distinzioni e chiamarle "alberi della rete neurale". Inoltre, Schmidhuber distingue le NN dalle macchine del kernel - anche se le macchine del kernel hanno alcune connessioni con le NN - quando scrive "Nel nuovo millennio, le NN profonde hanno finalmente attirato l'attenzione diffusa, soprattutto sovraperformando metodi alternativi di apprendimento automatico come le macchine del kernel ... in numerose importanti applicazioni. "