L'idea di applicare filtri per fare qualcosa come identificare i bordi, è un'idea piuttosto interessante.
Ad esempio, è possibile acquisire un'immagine di un 7. Con alcuni filtri, è possibile ottenere immagini trasformate che enfatizzano le diverse caratteristiche dell'immagine originale. L'originale 7:
può essere sperimentato dalla rete come:
Notare come ogni immagine ha estratto un diverso bordo dell'originale 7.
Tutto questo è fantastico, ma poi, diciamo che il livello successivo nella tua rete è un livello Max Pooling.
La mia domanda è, in generale, non sembra un po 'eccessivo? Siamo stati solo molto attenti e deliberati nell'identificare i bordi usando i filtri - ora non ci interessa più nulla di tutto ciò, dato che abbiamo fatto saltare i valori dei pixel! Per favore, correggimi se sbaglio, ma siamo passati da 25 X 25 a 2 X 2! Perché non andare direttamente a Max Pooling allora, non finiremo sostanzialmente con la stessa cosa?
Come estensione della mia domanda, non posso fare a meno di chiedermi cosa succederebbe se, per coincidenza, ognuno dei 4 quadrati avesse un pixel con lo stesso valore massimo. Sicuramente questo non è un caso raro, giusto? Improvvisamente tutte le immagini di allenamento sembrano esattamente uguali.
The pooling operation provides a form of translation invariance
?