Perché "Profondità = rappresentazione semantica" nelle reti neurali convoluzionali?


8

Stavo guardando alcuni video online sulle reti convoluzionali e l'oratore stava discutendo il concetto di far passare un filtro su un'immagine.

Ha detto, ed è anche mostrato nell'immagine qui sotto, che "Profondità = rappresentazione semantica".
inserisci qui la descrizione dell'immagine

Sembra bello, ma non sono sicuro di cosa sia così speciale ridurre la dimensione spaziale dell'immagine a favore di una maggiore profondità? Cosa rende la profondità più importante di qualsiasi altra dimensione? Una dimensione è solo dimensione, giusto?

EDIT: Ho la sensazione che la ragione avrà qualcosa a che fare con l'indipendenza della traduzione ...

Risposte:


5

Il punto della profondità dello strato e della graduale riduzione piramidale è costruire una gerarchia di rappresentazioni spazialmente invarianti, ognuna più complessa di quelle dei livelli precedenti. Ad esempio, al livello più basso, un convoluzionale può essere in grado di individuare disposizioni degne di nota dei pixel; al livello successivo, può condensarli in punti particolari, forme di base, bordi, ecc .; quindi ai livelli più alti può riconoscere oggetti sempre più grandi e complessi. Prenderò un esempio dalla tesi 1 di Gerod M. Bonhoffsulla memoria gerarchica temporale di Hawkins (HTM), che è un concetto strettamente correlato, che utilizza anche le regioni ricettive per costruire rappresentazioni invarianti. A livelli più alti, il processo di filtraggio consente a un convoluzionale o HTM di assemblare singole linee e forme in oggetti come "coda di cane" o "testa di cane"; nella fase successiva possono essere riconosciuti come un "cane" o forse una variante particolare, come "pastore tedesco".

Ciò è reso possibile non solo dall'accatastamento di più strati, ma dalle divisioni dei neuroni al loro interno in regioni ricettive separate. Le regioni recettive imitano gli attuali "assemblaggi cellulari" neuronali e colonne corticali che imparano a sparare insieme in gruppi; ciò consente il raggruppamento attorno a particolari tipi di oggetti, mentre i livelli aggiuntivi consentono loro di essere collegati tra loro in oggetti di crescente raffinatezza. La diminuzione delle dimensioni spaziali nell'esempio che hai citato riflette il restringimento delle regioni ricettive mentre saliamo sulla piramide; la terza dimensione (ovvero la profondità all'interno di uno strato, al contrario della profondità degli strati) aumenta in tandem in modo da poter fornire una più ampia scelta di rappresentazioni spazialmente invarianti tra cui scegliere ad ogni stadio, ad esempio, ogni filtro nella dimensione di profondità del volume di output impara a guardare qualcosa di diverso. Se restringessimo semplicemente la piramide in ogni fase lungo ogni dimensione, alla fine saremmo rimasti con solo una ristretta gamma di oggetti tra cui scegliere; preso abbastanza lontano, potrebbe semplicemente lasciarci con un singolo nodo in alto che riflette una sola scelta sì-no tra "è un cane o no?" Questo design più flessibile ci consente di scegliere più combinazioni di rappresentazioni spazialmente invarianti del livello precedente. Ritengo che ciò consenta anche a una rete convoluzionale di tenere conto di vari problemi di orientamento, compresa l'indipendenza dalla traduzione, aggiungendo più assiemi / colonne di celle per gestire ogni riorientamento di una rappresentazione invariante. alla fine saremmo rimasti con solo una ristretta gamma di oggetti tra cui scegliere; preso abbastanza lontano, potrebbe semplicemente lasciarci con un singolo nodo in alto che riflette una sola scelta sì-no tra "è un cane o no?" Questo design più flessibile ci consente di scegliere più combinazioni di rappresentazioni spazialmente invarianti del livello precedente. Ritengo che ciò consenta anche a una rete convoluzionale di tenere conto di vari problemi di orientamento, compresa l'indipendenza dalla traduzione, aggiungendo più assiemi / colonne di celle per gestire ogni riorientamento di una rappresentazione invariante. alla fine saremmo rimasti con solo una ristretta gamma di oggetti tra cui scegliere; preso abbastanza lontano, potrebbe semplicemente lasciarci con un singolo nodo in alto che riflette una sola scelta sì-no tra "è un cane o no?" Questo design più flessibile ci consente di scegliere più combinazioni di rappresentazioni spazialmente invarianti del livello precedente. Ritengo che ciò consenta anche a una rete convoluzionale di tenere conto di vari problemi di orientamento, compresa l'indipendenza dalla traduzione, aggiungendo più assiemi / colonne di celle per gestire ogni riorientamento di una rappresentazione invariante. Questo design più flessibile ci consente di scegliere più combinazioni di rappresentazioni spazialmente invarianti del livello precedente. Ritengo che ciò consenta anche a una rete convoluzionale di tenere conto di vari problemi di orientamento, compresa l'indipendenza dalla traduzione, aggiungendo più assiemi / colonne di celle per gestire ogni riorientamento di una rappresentazione invariante. Questo design più flessibile ci consente di scegliere più combinazioni di rappresentazioni spazialmente invarianti del livello precedente. Ritengo che ciò consenta anche a una rete convoluzionale di tenere conto di vari problemi di orientamento, compresa l'indipendenza dalla traduzione, aggiungendo più assiemi / colonne di celle per gestire ogni riorientamento di una rappresentazione invariante.

Come spiega questo eccellente tutorial su Github ,

Innanzitutto, la profondità del volume di output è un iperparametro: corrisponde al numero di filtri che vorremmo usare, ognuno dei quali impara a cercare qualcosa di diverso nell'input. Ad esempio, se il primo strato convoluzionale prende come input l'immagine grezza, diversi neuroni lungo la dimensione della profondità possono attivarsi in presenza di vari bordi orientati o macchie di colore. Faremo riferimento a un insieme di neuroni che stanno tutti osservando la stessa regione dell'input come una colonna di profondità (alcune persone preferiscono anche il termine fibra).

Questo tipo di design si ispira a varie strutture biologicamente plausibili presenti negli organismi reali, come gli occhi dei gatti. Se quello che ho detto qui non è abbastanza chiaro per rispondere alla tua domanda, posso aggiungere molti ulteriori dettagli, tra cui più esempi, alcuni basati su organi reali di quel tipo.

1 Vedi pagg. 26-27, 36 76 Bonhoff, Gerod M., Uso della memoria temporale gerarchica per rilevare attività di rete anomala. Tesi consegnata nel marzo 2008 alla facoltà dell'Air Force Institute of Technology presso la base aeronautica di Wright-Patterson, Ohio.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.