Come vengono applicati i kernel alle mappe caratteristiche per produrre altre mappe caratteristiche?


44

Sto cercando di comprendere la parte di convoluzione delle reti neurali convoluzionali. Guardando la figura seguente:

inserisci qui la descrizione dell'immagine

Non ho problemi a comprendere il primo livello di convoluzione in cui abbiamo 4 kernel diversi (di dimensioni ), che contiamo con l'immagine di input per ottenere 4 mappe caratteristiche.k×k

Quello che non capisco è il prossimo livello di convoluzione, in cui passiamo da 4 mappe caratteristiche a 6 mappe caratteristiche. Presumo che abbiamo 6 kernel in questo layer (di conseguenza dando 6 mappe delle caratteristiche di output), ma come funzionano questi kernel sulle 4 mappe delle caratteristiche mostrate in C1? I kernel sono tridimensionali o bidimensionali e replicati nelle 4 mappe delle caratteristiche di input?


1
Sono bloccato nello stesso posto. Sfortunatamente, il documento di Yann Lecun non lo spiega - ho passato diversi pdf e video negli ultimi giorni e tutti sembrano saltare quella parte. L'articolo di Yann Lecun parla in realtà da 6 a 16 mappe di caratteristiche con una tabella di mappatura nel livello 2. La prima mappa di caratteristiche di output riceve input da 0,1,2 mappe di caratteristiche di input. Ma quella mappa delle caratteristiche di output è 10 per 10, le 3 mappe delle caratteristiche di input sono 14 per 14. Quindi, come ha funzionato? Hai capito cosa sta succedendo? È un kernel 3-D? o sta calcolando la media degli output dal kernel location * (convoluzione)?
Run2

Risposte:


18

I kernel sono tridimensionali, dove larghezza e altezza possono essere scelte, mentre la profondità è uguale al numero di mappe nel livello di input - in generale.

Non sono certamente bidimensionali e replicati attraverso le mappe delle caratteristiche di input nella stessa posizione 2D! Ciò significherebbe che un kernel non sarebbe in grado di distinguere tra le sue caratteristiche di input in una data posizione, dal momento che userebbe lo stesso peso tra le mappe delle caratteristiche di input!


5

Non esiste necessariamente una corrispondenza individuale tra layer e kernel. Dipende dall'architettura particolare. La figura che hai pubblicato suggerisce che nei livelli S2 hai 6 mappe caratteristiche, ognuna delle quali combina tutte le mappe caratteristiche dei livelli precedenti, ovvero diverse combinazioni possibili delle caratteristiche.

Senza più riferimenti non posso dire molto di più. Vedi ad esempio questo documento


Sto esaminando LeNet-5 in particolare e usando questo deeplearning.net/tutorial/lenet.html come riferimento. Da quella pagina sembra che i kernel siano tridimensionali, ma per me non è chiaro al 100%.
utdiscante

2
È necessario leggere questo documento quindi ( yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf ). A pagina 8 viene descritto come sono collegati i diversi layer. Come ho detto, ogni livello del livello combina diverse funzioni del livello precedente nella stessa posizione.
jpmuc,

2
Il link è morto.
lug


0

Questo articolo può essere utile: comprendere la convoluzione nell'apprendimento profondo di Tim Dettmers dal 26 marzo

In realtà non risponde alla domanda perché spiega solo il primo livello di convoluzione, ma contiene una buona spiegazione dell'intuizione di base sulla convoluzione nelle CNN. Descrive anche una definizione matematica più profonda della convoluzione. Penso che sia legato all'argomento della domanda.


1
Benvenuti nel sito. Stiamo cercando di creare un archivio permanente di informazioni statistiche di alta qualità sotto forma di domande e risposte. Pertanto, siamo diffidenti nei confronti delle risposte solo link, a causa di linkrot. Puoi pubblicare una citazione completa e un riepilogo delle informazioni al link, nel caso in cui vada a mancare?
gung - Ripristina Monica

@gung, grazie per l'avviso, scusa per l'incomprensione dei concetti. La situazione è: questo articolo non risponde davvero alla domanda, ma quando stavo cercando un'intuizione di base sulle CNN ho trovato questa domanda e speravo di aiutare con questo articolo a qualcuno che cerca anche l'intuizione di base e ha ottenuto questa domanda. Ok, meglio eliminarlo, sì? Grazie.
Anatoly Vasilyev,

Penso che andrebbe bene dire "questo articolo può servire da spunto di riflessione, ma non risponde completamente alla domanda", o qualcosa del genere. Potrebbe esserci del valore qui. Fornisci semplicemente una citazione completa e fornisci un riepilogo delle informazioni contenute, nel caso in cui il link si interrompa.
gung - Ripristina Monica

Grazie per le informazioni extra. Potete fornire una citazione completa per l'articolo (autore, anno, titolo, giornale, ecc.) E un riassunto del suo contenuto?
gung - Ripristina Monica

@gung sì, certo. Ma sembra che questo articolo sia solo in questo blog, quindi non sono riuscito a trovare altre informazioni utili al riguardo. Grazie per aver chiarito il mio punto di vista
Anatoly Vasilyev il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.