Le reti convoluzionali (CNN) si basano sulla convoluzione matematica (ad es. Convoluzioni 2D o 3D), che viene comunemente utilizzata per l'elaborazione del segnale. Le immagini sono un tipo di segnale e la convoluzione può essere utilizzata anche su suono, vibrazioni, ecc. Quindi, in linea di principio, le CNN possono trovare applicazioni per qualsiasi segnale, e probabilmente di più.
In pratica, esiste già un lavoro sulla PNL (come menzionato da Matthew Graves), in cui alcune persone elaborano testo con CNN piuttosto che reti ricorsive. Alcune altre opere si applicano all'elaborazione del suono (nessun riferimento qui, ma ho ancora lavori inediti in corso).
Contenuti originali: in risposta alla domanda del titolo originale, che ora è cambiata. Forse è necessario eliminare questo .
La ricerca sulle reti contraddittorie (e relative) mostra che anche le reti profonde possono essere facilmente ingannate , portandole a vedere un cane (o qualunque oggetto) in quello che sembra essere un rumore casuale quando un umano lo guarda (l'articolo ha chiari esempi).
Un altro problema è il potere di generalizzazione di una rete neurale. Le reti convoluzionali hanno stupito il mondo con la loro capacità di generalizzare in modo migliore rispetto ad altre tecniche. Ma se la rete è alimentata solo con immagini di gatti, riconoscerà solo i gatti (e probabilmente vedrà i gatti ovunque, come dai risultati della rete contraddittoria). In altre parole, anche i CN hanno difficoltà a generalizzare troppo oltre ciò che hanno imparato.
Il limite di riconoscimento è difficile da definire con precisione. Direi semplicemente che la diversità dei dati di apprendimento spinge il limite (presumo che ulteriori dettagli dovrebbero portare a una sede più appropriata per la discussione).