Come funziona la "teoria delle capsule" di Hinton?


35

Geoffrey Hinton ha fatto ricerche su qualcosa che lui chiama "teoria delle capsule" nelle reti neurali. Cos'è questo e come funziona?


8
Ora questo documento può essere visualizzato su: arxiv.org/abs/1710.09829 Instradamento dinamico tra le capsule Sara Sabour, Nicholas Frosst, Geoffrey E Hinton
Danke Xie,

1
C'è una domanda correlata con le informazioni più recenti (novembre 2017): qual è il concetto principale dietro Capsule Networks?
mjul

Risposte:


31

Sembra non essere ancora stato pubblicato; le migliori disponibili online sono queste slide per questo talk . (Diverse persone fanno riferimento a un precedente discorso con questo link , ma purtroppo al momento della stesura di questa risposta è rotto.)

La mia impressione è che sia un tentativo di formalizzare e astrarre la creazione di sottoreti all'interno di una rete neurale. Cioè, se guardi una rete neurale standard, i livelli sono completamente connessi (cioè, ogni neurone nello strato 1 ha accesso a tutti i neuroni nello strato 0, ed è a sua volta accessibile da ogni neurone nello strato 2). Ma questo non è ovviamente utile; si potrebbe invece avere, per esempio, n pile di livelli paralleli (le "capsule") ognuna specializzata in un compito separato (che potrebbe richiedere da sé più di un livello per essere completato con successo).

Se sto immaginando i suoi risultati correttamente, questa topologia grafica più sofisticata sembra qualcosa che potrebbe facilmente aumentare sia l'efficacia che l'interpretazione della rete risultante.


9
L'articolo è ora (ottobre 2017) pubblicato: arxiv.org/pdf/1710.09829.pdf
machinaut

13

Per integrare la risposta precedente: c'è un documento su questo che riguarda principalmente l'apprendimento di capsule di basso livello da dati grezzi, ma spiega la concezione di Hinton di una capsula nella sua sezione introduttiva: http://www.cs.toronto.edu/~ Fritz / absps / transauto6.pdf

Vale anche la pena notare che il collegamento al discorso del MIT nella risposta sopra sembra funzionare di nuovo.

Secondo Hinton, una "capsula" è un sottoinsieme di neuroni all'interno di uno strato che genera sia un "parametro di istanza" che indica se un'entità è presente in un dominio limitato sia un vettore di "parametri di posa" che specifica la posa dell'entità rispetto a una versione canonica.

I parametri emessi da capsule di basso livello vengono convertiti in previsioni per la posa delle entità rappresentate da capsule di livello superiore, che vengono attivate se le previsioni concordano e producono i propri parametri (i parametri di posa di livello superiore sono medie delle previsioni ricevute ).

Hinton ipotizza che questa rilevazione di coincidenze ad alta dimensione sia la ragione per cui l'organizzazione a mini-colonne nel cervello. Il suo obiettivo principale sembra sostituire il pooling massimo utilizzato nelle reti convoluzionali, in cui gli strati più profondi perdono informazioni sulla posa.


4

Le reti di capsule cercano di imitare le osservazioni di Hinton sul cervello umano sulla macchina. La motivazione deriva dal fatto che le reti neurali necessitavano di una migliore modellizzazione delle relazioni spaziali delle parti. Invece di modellare la coesistenza, trascurando il posizionamento relativo, le capsule-mesh cercano di modellare le trasformazioni relative globali di diverse sotto-parti lungo una gerarchia. Questo è il compromesso tra eqivarianza e invarianza, come spiegato sopra da altri.

Queste reti quindi includono in qualche modo una consapevolezza del punto di vista / orientamento e rispondono in modo diverso ai diversi orientamenti. Questa proprietà li rende più discriminatori, introducendo potenzialmente la capacità di eseguire la stima della posa poiché le funzioni dello spazio latente contengono dettagli interpretabili e specifici.

Tutto ciò si ottiene includendo un livello nidificato chiamato capsule all'interno del livello, anziché concatenare ancora un altro livello nella rete. Queste capsule possono fornire un output vettoriale anziché uno scalare per nodo.

Il contributo cruciale dell'articolo è il routing dinamico che sostituisce il max-pooling standard con una strategia intelligente. Questo algoritmo applica un raggruppamento a spostamento medio sugli output della capsula per garantire che l'output venga inviato solo al genitore appropriato nel layer sopra.

Gli autori accoppiano anche i contributi con una perdita di margine e perdita di ricostruzione, che allo stesso tempo aiutano a imparare meglio l'attività e mostrano risultati all'avanguardia su MNIST.

Il recente articolo si chiama Dynamic Routing Between Capsules ed è disponibile su Arxiv: https://arxiv.org/pdf/1710.09829.pdf .


3

Basato sul loro routing dinamico tra le capsule

Una capsula è un gruppo di neuroni il cui vettore di attività rappresenta i parametri di istanza di un tipo specifico di entità come un oggetto o una parte di oggetto. Usiamo la lunghezza del vettore di attività per rappresentare la probabilità che l'entità esista e il suo orientamento per rappresentare i parametri di istanza. Le capsule attive a un livello fanno previsioni, tramite matrici di trasformazione, per i parametri di istanziazione delle capsule di livello superiore. Quando più previsioni concordano, diventa attiva una capsula di livello superiore. Dimostriamo che un sistema a capsule multistrato addestrato in modo discriminante raggiunge prestazioni all'avanguardia su MNIST ed è notevolmente migliore di una rete convoluzionale nel riconoscere cifre altamente sovrapposte. Per ottenere questi risultati utilizziamo un meccanismo iterativo di routing per accordo: Una capsula di livello inferiore preferisce inviare il proprio output a capsule di livello superiore i cui vettori di attività hanno un grande prodotto scalare con la previsione proveniente dalla capsula di livello inferiore. La versione finale del documento è in fase di revisione per incorporare i commenti dei revisori.


2
Una buona risposta è di solito più di una semplice citazione. Di solito è possibile riformulare in modo più chiaro o approfondire ulteriormente. Molto raramente è solo una citazione tutto ciò che serve per fare una buona risposta. Pensi di poterlo migliorare un po ' modificando ?
user58

3

Uno dei maggiori vantaggi delle reti neurali convoluzionali è la loro invarianza alla traduzione. Tuttavia, questa invarianza ha un prezzo e cioè non considera come le diverse funzionalità siano correlate tra loro. Ad esempio, se abbiamo un'immagine di un volto, la CNN avrà difficoltà a distinguere la relazione tra caratteristiche della bocca e caratteristiche del naso. I livelli massimi di pool sono il motivo principale di questo effetto. Perché quando utilizziamo i livelli massimi di pooling, perdiamo le posizioni precise della bocca e del rumore e non possiamo dire come siano correlati tra loro.

Le capsule cercano di mantenere il vantaggio della CNN e correggere questo inconveniente in due modi;

  1. Invarianza: citando questo articolo

Quando la capsula funziona correttamente, la probabilità che l'entità visiva sia presente è invariante localmente - non cambia quando l'entità si sposta sulla varietà di possibili aspetti all'interno del dominio limitato coperto dalla capsula.

In altre parole, la capsula tiene conto dell'esistenza della caratteristica specifica che stiamo cercando come la bocca o il naso. Questa proprietà assicura che le capsule siano invarianti per la traduzione esattamente come le CNN.

  1. Equivarianza: invece di rendere invariata la traduzione della caratteristica , la capsula la renderà equivalente alla traduzione o equivalente al punto di vista. In altre parole, quando la funzione si sposta e cambia la sua posizione nell'immagine, anche la rappresentazione vettoriale della funzione cambierà nello stesso modo in cui la rende equivalente. Questa proprietà delle capsule cerca di risolvere l'inconveniente dei livelli massimi di pooling che ho citato all'inizio.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.