Quindi sto cercando di fare la predicazione su immagini di umani usando reti convoluzionali. Ho letto i giornali ( Paper1 e paper2 ) e questo legame StackOverflow , ma non sono sicuro io sono comprendere la struttura delle reti (non è ben definita sui giornali).
Domande:
Posso avere il mio input seguito da uno strato di rumore seguito da uno strato conv, seguito da uno strato di pool - lì dopo - devo de-pool prima di dare il mio output (che è la stessa immagine di input)?
Supponiamo di avere diverse (135.240) immagini. Se uso 32, (12,21) kernel, seguito da un pool (2,2), finirò con 32 (62, 110) mappe delle caratteristiche. Ora deseleziono per ottenere 32 (124, 220) mappe caratteristiche e poi appiattirle? prima di dare il mio (135.240) livello di output?
Se ho più di questi livelli conv-pool, li dovrei allenare uno per uno, come in autoencoders denigrati in pila? Oppure - posso avere qualcosa come input-conv-pool-conv-pool-conv-pool-output (l'output è uguale all'input)? In tal caso, come dovrebbe essere gestito il pooling, i defers? Devo rimuovere il pool solo nell'ultimo livello del pool prima dell'output? E ancora: quale dovrebbe essere il fattore di ridimensionamento di quel de-pooling? L'intenzione è di riportare le mappe delle caratteristiche alla forma dell'input?
Dovrei introdurre livelli di rumore dopo ogni livello conv-pool-depool?
E poi, durante la regolazione fine, dovrei semplicemente rimuovere i livelli di declassamento e lasciare il resto uguale. O dovrei rimuovere sia i livelli di rumore che i livelli di de-pooling
Qualcuno può indicarmi un url / paper che ha dettagliato l'architettura di un codificatore automatico convoluzionale così impilato per fare pre-training sulle immagini?