Perché le CNN si concludono con i livelli FC?

11

Da quanto ho capito, le CNN sono composte da due parti. La prima parte (livelli conv / pool) che esegue l'estrazione delle caratteristiche e la seconda parte (livelli fc) che esegue la classificazione delle caratteristiche.

Dato che le reti neurali completamente connesse non sono i migliori classificatori (ovvero sono sovraperformate dalle SVM e dalle RF per la maggior parte del tempo), perché le CNN si concludono con gli strati FC, piuttosto che con una SVM o una RF?

— Mary93
fonte

4

Non è così semplice Prima di tutto, un SVM è, in un certo senso, un tipo di rete neurale (puoi imparare una soluzione SVM attraverso la backpropagation). Vedi Cos'è * una * rete neurale artificiale? . In secondo luogo, non puoi sapere in anticipo quale modello funzionerà meglio, ma il fatto è che con un'architettura completamente neuromorfa puoi apprendere i pesi end-to-end, mentre attaccando un SVM o RF all'ultima attivazione di layer nascosti di una CNN è semplicemente una procedura ad hoc . Potrebbe funzionare meglio e potrebbe non esserlo, non possiamo saperlo senza test.

La parte importante è che un'architettura completamente convoluzionale è in grado di rappresentare l'apprendimento, il che è utile per una miriade di ragioni. Per una volta, potrebbe ridurre o eliminare del tutto l'ingegneria delle funzionalità nel tuo problema.

A proposito degli strati FC, sono matematicamente equivalenti agli strati convoluzionali 1x1. Vedi il post di Yann Lecun , che trascrivo di seguito:

Nelle reti convoluzionali non esistono "livelli completamente connessi". Esistono solo livelli di convoluzione con kernel convoluzione 1x1 e una tabella di connessione completa.

È un fatto troppo raro che ConvNets non abbia bisogno di un input di dimensioni fisse. È possibile addestrarli su input che producono un singolo vettore di output (senza estensione spaziale) e quindi applicarli a immagini più grandi. Invece di un singolo vettore di output, si ottiene quindi una mappa spaziale dei vettori di output. Ogni vettore vede finestre di input in posizioni diverse sull'input.

In quello scenario, i "livelli completamente connessi" agiscono davvero come convoluzioni 1x1.

— Firebug
fonte

0

Se conoscessi il teorema del pranzo libero (Wolpert e Macready), non ti importeresti così tanto su un classificatore e ti chiederai perché non è il migliore. Il teorema della NFL afferma essenzialmente che "nell'universo di tutte le funzioni di costo, non esiste un miglior classificatore". In secondo luogo, le prestazioni del classificatore "dipendono sempre dai dati".

The Ugly Duckling Theorem (Watanabe) afferma essenzialmente che "nell'universo di tutti i set di funzionalità, non esiste un miglior set di funzionalità".

Il teorema di Cover afferma che se , ovvero la dimensionalità dei dati è maggiore della dimensione del campione, un problema di classificazione binaria è sempre separabile linearmente. $p>n$

Alla luce di quanto sopra, oltre a Occam's Razor , non c'è mai niente di meglio di qualsiasi altra cosa, indipendentemente dai dati e dalla funzione di costo.

Ho sempre sostenuto che le CNN da sole non sono insiemi di classificatori per i quali è possibile valutare la diversità (kappa vs errore).

— wrktsj
fonte