Metto in guardia dal prevedere una forte somiglianza tra reti neurali biologiche e artificiali. Penso che il nome "reti neurali" sia un po 'pericoloso, perché induce le persone ad aspettarsi che i processi neurologici e l'apprendimento automatico debbano essere gli stessi. Le differenze tra reti neurali biologiche e artificiali superano le somiglianze.
Come esempio di come ciò possa andare storto, puoi anche capovolgere il ragionamento nel post originale. Puoi addestrare una rete neurale per imparare a riconoscere le auto in un pomeriggio, a condizione che tu abbia un computer abbastanza veloce e una certa quantità di dati di allenamento. Puoi renderlo un'attività binaria (auto / non auto) o un'attività multi-classe (auto / tram / bici / aereo / barca) e avere ancora fiducia in un alto livello di successo.
Al contrario, non mi aspetto che un bambino possa scegliere un'auto il giorno - o anche la settimana - dopo la sua nascita, anche dopo aver visto "tanti esempi di allenamento". Qualcosa è ovviamente diverso tra un bambino di due anni e un bambino che spiega la differenza nelle capacità di apprendimento, mentre una rete neurale di classificazione delle immagini alla vaniglia è perfettamente in grado di raccogliere la classificazione degli oggetti immediatamente dopo la "nascita". Penso che ci siano due differenze importanti: (1) i volumi relativi dei dati di allenamento disponibili e (2) un meccanismo di autoapprendimento che si sviluppa nel tempo a causa di abbondanti dati di allenamento.
Il post originale espone due domande. Il titolo e il corpo della domanda chiedono perché le reti neurali necessitino di "tanti esempi". Rispetto all'esperienza di un bambino, le reti neurali addestrate utilizzando benchmark di immagini comuni hanno dati relativamente scarsi.
Rielaborerò la domanda nel titolo
"In che modo la formazione di una rete neurale per un benchmark di immagine comune è paragonabile e contrastante con l'esperienza di apprendimento di un bambino?"
Per fare un confronto, prenderò in considerazione i dati CIFAR-10 perché è un benchmark di immagine comune. La parte etichettata è composta da 10 classi di immagini con 6000 immagini per classe. Ogni immagine è di 32x32 pixel. Se in qualche modo impilassi le immagini etichettate da CIFAR-10 e realizzi un video standard a 48 fps, avresti circa 20 minuti di riprese.
Un bambino di 2 anni che osserva il mondo per 12 ore al giorno ha circa 263000 minuti (più di 4000 ore) di osservazioni dirette sul mondo, incluso il feedback degli adulti (etichette). (Queste sono solo figure da ballpark - Non so quanti minuti ha trascorso un tipico bambino di due anni ad osservare il mondo.) Inoltre, il bambino sarà esposto a molti, molti oggetti oltre le 10 classi che comprendono CIFAR- 10.
Quindi ci sono alcune cose in gioco. Uno è che il bambino ha un'esposizione complessiva a più dati e una fonte di dati più diversificata rispetto al modello CIFAR-10. La diversità e il volume dei dati sono riconosciuti come prerequisiti per modelli robusti in generale. Alla luce di ciò, non sembra sorprendente che una rete neurale sia peggiore in questo compito rispetto al bambino, perché una rete neurale addestrata su CIFAR-10 è positivamente affamata di dati di allenamento rispetto al bambino di due anni. La risoluzione dell'immagine disponibile per un bambino è migliore delle immagini CIFAR-10 32x32, quindi il bambino è in grado di apprendere informazioni sui dettagli fini degli oggetti.
Il confronto da CIFAR-10 a due anni non è perfetto perché il modello CIFAR-10 sarà probabilmente addestrato con passaggi multipli sulle stesse immagini statiche, mentre il bambino vedrà, usando la visione binoculare, come sono disposti gli oggetti in tre mondo tridimensionale mentre ci si sposta e con condizioni di illuminazione e prospettive diverse sugli stessi oggetti.
L'aneddoto sul figlio di OP implica una seconda domanda,
"Come possono le reti neurali diventare autodidatta?"
Un bambino è dotato di un certo talento per l'autoapprendimento, in modo che nuove categorie di oggetti possano essere aggiunte nel tempo senza dover ricominciare da capo.
L'osservazione di OP sull'apprendimento del trasferimento nomina un tipo di adattamento del modello nel contesto dell'apprendimento automatico.
Nei commenti, altri utenti hanno sottolineato che l'apprendimento one-and-shot-shot * è un'altra area di ricerca sull'apprendimento automatico.
Inoltre, l' apprendimento per rinforzo affronta i modelli di autoapprendimento da una prospettiva diversa, consentendo essenzialmente ai robot di intraprendere una sperimentazione di prova ed errore per trovare strategie ottimali per risolvere problemi specifici (ad esempio, giocare a scacchi).
È probabilmente vero che tutti e tre questi paradigmi di apprendimento automatico sono fondamentali per migliorare il modo in cui le macchine si adattano ai nuovi compiti di visione artificiale. Adattare rapidamente i modelli di apprendimento automatico a nuove attività è un'area di ricerca attiva. Tuttavia, poiché gli obiettivi pratici di questi progetti (identificare nuove istanze di malware, riconoscere gli impostori nelle foto dei passaporti, indicizzare Internet) e i criteri per il successo differiscono dagli obiettivi di un bambino che impara a conoscere il mondo e dal fatto che si fa un computer che usa la matematica e l'altro è fatto in materiale organico usando la chimica, i confronti diretti tra i due rimarranno carichi.
A parte questo, sarebbe interessante studiare come invertire il problema CIFAR-10 e addestrare una rete neurale per riconoscere 6000 oggetti da 10 esempi di ciascuno. Ma anche questo non sarebbe un paragone equo con il bambino di 2 anni, perché ci sarebbe ancora una grande discrepanza nel volume totale, nella diversità e nella risoluzione dei dati di allenamento.
* Al momento non abbiamo tag per l'apprendimento one-shot o l'apprendimento pochi-shot.