Questo post è stato aggiornato molto. In alto, puoi vedere gli aggiornamenti dei link. Di seguito, variazioni sulla risposta iniziale. Per la versione breve: i successi delle reti neurali convoluzionali e l'apprendimento profondo sembrano una sorta di rivoluzione galileiana. Per un punto di vista pratico, l'elaborazione del segnale classico o la visione al computer sono morti ... a condizione che tu abbia abbastanza dati etichettati, ti preoccupi poco degli evidenti fallimenti della classificazione ( difetti profondi ), hai energia infinita per eseguire test senza pensare all'impronta di carbonio , e non disturbare spiegazioni razionali. Per gli altri, questo ci ha fatto ripensare a tutto ciò che abbiamo fatto in precedenza: estrazione delle caratteristiche, ottimizzazione (cfr. Il mio collega J.-C. Pesquet lavora su strutture di reti neurali profonde risolvendo le disuguaglianze variazionali), invarianza, quantificazione, ecc. E da questo emerge una ricerca davvero interessante, si spera che stia raggiungendo principi ben radicati e prestazioni simili.
Link aggiornati:
Introduciamo esempi di contraddittorio naturale - esempi reali, non modificati e presenti in natura che causano un degrado significativo della precisione del classificatore. Curiamo 7.500 esempi di avversari naturali e li rilasciamo in un set di test del classificatore ImageNet che chiamiamo ImageNet-A. Questo set di dati funge da nuovo modo per misurare la robustezza del classificatore. Come gli esempi del contraddittorio l_p, gli esempi di ImageNet-A vengono trasferiti correttamente ai classificatori invisibili o black-box. Ad esempio, su ImageNet-A un DenseNet-121 ottiene una precisione di circa il 2%, un calo di precisione di circa il 90%. Il recupero di questa precisione non è semplice perché gli esempi di ImageNet-A sfruttano i difetti profondi degli attuali classificatori, inclusa la loro eccessiva dipendenza da colore, trama e segnali di sfondo. Osserviamo che le tecniche di allenamento popolari per migliorare la robustezza hanno scarso effetto, ma mostriamo che alcune modifiche architettoniche possono migliorare la solidità agli esempi contraddittori naturali. Sono necessarie ricerche future per consentire una solida generalizzazione a questo set di test di ImageNet.
- 2019/05/03: Deep learning: l'ultima frontiera per l'elaborazione del segnale e l'analisi delle serie temporali? "In questo articolo, voglio mostrare diverse aree in cui i segnali o le serie temporali sono vitali"
- 23/04/2018: Sono appena tornato dalla conferenza internazionale annuale su acustica, elaborazione del parlato e del segnale, ICASSP 2018 . Sono rimasto sorpreso dalla quantità di articoli che si basano in qualche modo su Deep Learning, Deep Networks, ecc. Due pleanaries su quattro (di Alex Acero e Yann LeCun) erano dedicati a questo argomento. Allo stesso tempo, la maggior parte dei ricercatori che ho incontrato erano un po 'scherzosi al riguardo ("Mi dispiace, il mio poster è su banchi filtro, non su Deep Learning", "Non mi interessa, ho piccoli set di dati"), oppure si stavano chiedendo di guadagnare lo 0,5% sulle grandi sfide e di perdere l'interesse a modellare la fisica o le statistiche precedenti.
- 2018/01/14: Can A Deep Net See A Cat? , da "gatto astratto", a "gatto migliore" invertito, disegnato, ecc. e in qualche modo risultati sorprendenti sugli schizzi
- 2017/11/02: aggiunti riferimenti alle trasformazioni / reti di scattering
- 2017/10/21: una revisione delle reti neurali convoluzionali per problemi inversi nell'imaging
- Deep Learning e le sue applicazioni all'elaborazione di segnali e informazioni , rivista IEEE Signal Processing, gennaio 2011
In fondo si trovano riferimenti all'apprendimento approfondito "stepping" sull'elaborazione standard di segnali / immagini. Michael Elad ha appena scritto Deep, Deep Trouble: Deep Learning's Impact on Image Processing, Mathematics and Humanity (SIAM News, 2017/05), estratto:
Quindi le reti neurali tornarono improvvisamente e con una vendetta.
Questa tribuna è interessante, in quanto mostra un passaggio dalla tradizionale "elaborazione delle immagini", cercando di modellare / comprendere i dati, verso un regno di correttezza, senza troppe intuizioni.
Questo dominio si sta evolvendo abbastanza velocemente. Ciò non significa che si evolva in una direzione intenzionale o costante. Né giusto né sbagliato. Ma stamattina ho sentito il seguente detto (o è uno scherzo?):
un cattivo algoritmo con un enorme set di dati può fare meglio di un algoritmo intelligente con dati pauce .
Ecco il mio brevissimo tentativo: l'apprendimento approfondito può fornire risultati all'avanguardia, ma non si capisce sempre perché , e parte del nostro lavoro di scienziati continua a spiegare perché le cose funzionano, qual è il contenuto di un dato , eccetera.
L'apprendimento profondo richiede (enormi) database ben etichettati. Ogni volta che fai lavori artigianali su immagini singole o singole (cioè senza un enorme database dietro), specialmente in luoghi che difficilmente producono "immagini taggate basate sull'utente gratuite" (nel set complementare del set " gatti divertenti che giocano a giochi e volti ") , è possibile attenersi all'elaborazione tradizionale delle immagini per un po 'di tempo e a scopo di lucro. Un recente tweet riassume che:
(un sacco di) i dati etichettati (senza errori mancanti) requisito è un affare (e non necessario) per molti domini
Se vengono uccisi (di cui dubito a breve termine), non sono ancora morti. Quindi qualsiasi competenza acquisita nell'elaborazione del segnale, nell'analisi delle immagini, nella visione artificiale ti aiuterà in futuro. Questo è per esempio discusso nel post del blog: Abbiamo dimenticato la geometria in Computer Vision? di Alex Kendall:
L'apprendimento profondo ha rivoluzionato la visione del computer. Oggi non ci sono molti problemi in cui la soluzione con le migliori prestazioni non si basa su un modello di apprendimento profondo end-to-end. In particolare, le reti neurali convoluzionali sono popolari in quanto tendono a funzionare abbastanza bene fuori dagli schemi. Tuttavia, questi modelli sono in gran parte grandi scatole nere. Ci sono molte cose che non capiamo su di loro.
Un esempio concreto può essere il seguente: un paio di immagini molto scure (ad es. Sorveglianza) dalla stessa posizione, che devono valutare se una di esse contiene un cambiamento specifico che dovrebbe essere rilevato, è potenzialmente una questione di elaborazione tradizionale delle immagini, più che Deep Learning (ad oggi).
D'altra parte, se il Deep Learning ha successo su larga scala, può portare a un'errata classificazione di un piccolo set di dati, che potrebbe essere innocuo "in media" per alcune applicazioni. Due immagini che differiscono leggermente dall'occhio umano potrebbero essere classificate in modo diverso tramite DL. Oppure le immagini casuali potrebbero essere impostate su una classe specifica. Vedi, ad esempio, le reti neurali profonde sono facilmente ingannabili: previsioni di elevata sicurezza per immagini irriconoscibili (Nguyen A, Yosinski J, Clune J. Proc. Computer Vision e Pattern Recognition 2015) o Deep Learning hanno profondi difetti? , su negativi avversari:
La rete può classificare erroneamente un'immagine dopo che i ricercatori hanno applicato una certa perturbazione impercettibile. Le perturbazioni si trovano regolando i valori dei pixel per massimizzare l'errore di previsione.
Con tutto il rispetto per il "Deep Learning", pensa alla "produzione di massa che risponde a un comportamento registrato, noto, validabile in massa o atteso" rispetto a "singolo pezzo di artigianato". Nessuno è migliore (ancora) in una singola scala di indice. Entrambi potrebbero dover coesistere per un po '.
Tuttavia, l'apprendimento profondo pervade molte nuove aree, come descritto nei riferimenti seguenti.
Fortunatamente, alcune persone stanno cercando di trovare una logica matematica dietro l'apprendimento profondo, un esempio dei quali sono le reti di diffusione o le trasformazioni proposte da Stéphane Mallat e coautori, vedi il sito ENS per la diffusione . Analisi armoniche e operatori non lineari, funzioni di Lipschitz, invarianza traslazione / rotazione, migliore per la persona media di elaborazione del segnale. Vedere ad esempio Comprensione di reti convoluzionali profonde .