Come sarebbe la nuova scala del "computer neurale differenziabile" di Deepmind?


12

Deepmind ha appena pubblicato un articolo su un "computer neurale differenziabile" , che fondamentalmente combina una rete neurale con una memoria .

L'idea è di insegnare alla rete neurale a creare e richiamare utili memorie esplicite per un determinato compito. Ciò integra bene le capacità di una rete neurale, poiché le NN memorizzano implicitamente solo la conoscenza dei pesi e le informazioni utilizzate per lavorare su una singola attività vengono archiviate solo nell'attivazione della rete e degradano rapidamente più informazioni si aggiungono. (Gli LSTM sono un tentativo di rallentare questo degrado delle memorie a breve termine, ma succede ancora.)

Ora, invece di conservare le informazioni necessarie nell'attivazione, presumibilmente mantengono gli indirizzi degli slot di memoria per informazioni specifiche nell'attivazione, quindi anche questi dovrebbero essere soggetti a degrado. La mia domanda è: perché questo approccio dovrebbe ridimensionarsi. Un numero un po 'più elevato di informazioni specifiche dell'attività dovrebbe ancora una volta sopraffare la capacità delle reti di mantenere gli indirizzi di tutti gli slot di memoria appropriati nella sua attivazione?

Risposte:


3

L'esame dell'architettura del DNC mostra in effetti molte somiglianze con l'LSTM . Considera il diagramma nell'articolo di DeepMind a cui sei collegato:

DeepMind DNC Architecture

Confronta questo con l'architettura LSTM (credito a Ananth su SlideShare):

inserisci qui la descrizione dell'immagine

Ci sono alcuni analoghi vicini qui:

  • Proprio come il LSTM, il DNC eseguirà qualche conversione da ingresso a dimensione fissa vettori di stato ( h e c nel LSTM)
  • Allo stesso modo, il DNC eseguirà una conversione da questi vettori di stato di dimensioni fisse a output potenzialmente di lunghezza arbitraria (nell'LSTM campioniamo ripetutamente dal nostro modello fino a quando non siamo soddisfatti / il modello indica che abbiamo finito)
  • La dimenticano e ingresso porte del LSTM rappresentano la scrittura funzionamento in DNC ( 'dimenticando' è essenzialmente solo azzeramento o parzialmente azzeramento memoria)
  • Il gate di uscita dell'LSTM rappresenta l' operazione di lettura nel DNC

Tuttavia, il DNC è sicuramente più di un LSTM. Più ovviamente, utilizza uno stato più ampio che è discretizzato (indirizzabile) in blocchi; questo gli consente di rendere più binario il gate di dimenticanza dell'LSTM. Con questo intendo che lo stato non è necessariamente eroso da una frazione di volta in volta, mentre in LSTM (con la funzione di attivazione sigmoide) lo è necessariamente. Ciò potrebbe ridurre il problema dell'oblio catastrofico che hai citato e quindi ridimensionare meglio.

Il DNC è anche nuovo nei collegamenti che utilizza tra la memoria. Tuttavia, questo potrebbe essere un miglioramento più marginale sull'LSTM di quanto sembri se ri-immaginiamo l'LSTM con reti neurali complete per ciascun gate anziché solo un singolo strato con una funzione di attivazione (chiamatelo un super-LSTM); in questo caso, possiamo effettivamente imparare qualsiasi relazione tra due slot in memoria con una rete sufficientemente potente. Sebbene non conosca i dettagli specifici dei collegamenti suggeriti da DeepMind, nell'articolo implicano che stanno imparando tutto semplicemente proponendo gradienti come una normale rete neurale. Pertanto, qualunque relazione stiano codificando nei loro collegamenti dovrebbe teoricamente essere apprendibile da una rete neurale, e quindi un "super-LSTM" sufficientemente potente dovrebbe essere in grado di catturarlo.

Con tutto ciò che viene detto , è spesso nel caso dell'apprendimento profondo che due modelli con la stessa capacità teorica di espressività si comportano in modo molto diverso nella pratica. Ad esempio, considera che una rete ricorrente può essere rappresentata come un'enorme rete di feed-forward se la srotoliamo e basta. Allo stesso modo, la rete convoluzionale non è migliore di una rete neurale alla vaniglia perché ha una capacità extra di espressività; infatti, sono i vincoli imposti ai suoi pesi a renderlo più efficace. Pertanto, confrontare l'espressività di due modelli non è necessariamente un confronto equo delle loro prestazioni nella pratica, né una proiezione accurata di quanto si ridimensioneranno.

Una domanda che ho sul DNC è cosa succede quando si esaurisce la memoria. Quando un computer classico esaurisce la memoria e viene richiesto un altro blocco di memoria, i programmi iniziano a bloccarsi (nella migliore delle ipotesi). Sono curioso di vedere come DeepMind ha intenzione di affrontare questo. Presumo che si baserà su una cannibalizzazione intelligente della memoria attualmente in uso. In un certo senso i computer lo fanno attualmente quando un sistema operativo richiede che le applicazioni liberino memoria non critica se la pressione della memoria raggiunge una certa soglia.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.