Questa domanda si riduce a "come funzionano esattamente i livelli di convoluzione .
Supponiamo che io abbia un'immagine in scala di grigi . Quindi l'immagine ha un canale. Nel primo strato, applico una convoluzione 3 × 3 con k 1 filtri e riempimento. Poi ho un altro livello di convoluzione con 5 × 5 convoluzioni e k 2 filtri. Quante mappe caratteristiche ho?
Convoluzione di tipo 1
Il primo strato viene eseguito. Successivamente, ho mappe delle caratteristiche (una per ogni filtro). Ognuno di questi ha le dimensioni n × m . Ogni singolo pixel è stato creato prendendo 3 ⋅ 3 = 9 pixel dall'immagine di input imbottita.
Quindi viene applicato il secondo livello. Ogni singolo filtro viene applicato separatamente a ciascuna delle mappe caratteristiche . Ciò si traduce in mappe delle caratteristiche per ciascuna delle k 1 mappe delle caratteristiche. Quindi ci sono k 1 × k 2 mappe caratteristiche dopo il secondo livello. Ogni singolo pixel di ciascuna delle nuove mappe caratteristiche è stato creato prendendo 5 ⋅ 5 = 25 "pixel" della mappa caratteristica imbottita di prima.
Il sistema deve apprendere parametri.
Convoluzione di tipo 2.1
Come prima: il primo strato viene eseguito. Successivamente, ho mappe delle caratteristiche (una per ogni filtro). Ognuno di questi ha le dimensioni n × m . Ogni singolo pixel è stato creato prendendo 3 ⋅ 3 = 9 pixel dall'immagine di input imbottita.
Diversamente da prima: viene quindi applicato il secondo livello. Ogni singolo filtro viene applicato alla stessa area, ma tutte le mappe delle caratteristiche precedenti. Ciò si traduce in mappe delle caratteristiche in totale dopo l'esecuzione del secondo livello. Ogni singolo pixel di ciascuna delle nuove mappe caratteristiche è stato creato prendendo k 2 ⋅ 5 ⋅ 5 = 25 ⋅ k 2 "pixel" delle mappe caratteristiche imbottite di prima.
Il sistema deve apprendere parametri.
Convoluzione di tipo 2.2
Domanda
- Il tipo 1 o il tipo 2 viene generalmente utilizzato?
- Quale tipo viene utilizzato in Alexnet ?
- Quale tipo viene utilizzato in GoogLeNet ?
- Se dici di tipo 2: Spiega il costo quadratico ("Ad esempio, in una rete di visione profonda, se due livelli convoluzionali sono concatenati, qualsiasi aumento uniforme del numero dei loro filtri comporta un aumento quadratico del calcolo")
Per tutte le risposte, si prega di fornire alcune prove (documenti, libri di testo, documentazione di quadri) che la risposta è corretta.
Domanda bonus 1
Il pooling viene sempre applicato solo per mappa delle caratteristiche o anche su più mappe delle caratteristiche?
Domanda bonus 2
La mia ricerca
- Ho letto i due documenti dall'alto, ma non sono ancora sicuro di cosa venga utilizzato.
- Ho letto la documentazione sulle lasagne
- Ho letto la documentazione di theano
- Ho letto le risposte su Comprensione delle reti neurali convoluzionali (senza seguire tutti i collegamenti)
- Ho letto Convolutional Neural Networks (LeNet) . Soprattutto la figura 1 mi rende relativamente sicuro che il Tipo 2.1 sia quello giusto. Ciò si adatterebbe anche al commento sul "costo quadratico" in GoogLe Net e ad alcune esperienze pratiche che ho avuto con Caffee.