Su suggerimento dell'OP rcpinto ho convertito un commento sul vedere "circa una mezza dozzina di articoli che seguono il lavoro di Graves et al. Che hanno prodotto risultati del calibro" e forniranno alcuni collegamenti. Tieni presente che questo risponde solo alla parte della domanda relativa alle NTM, non a Google DeepMind stesso, inoltre sto ancora imparando le corde nell'apprendimento automatico, quindi parte del materiale in questi documenti è sopra la mia testa; Sono riuscito a cogliere gran parte del materiale nel documento originale di Graves et al. {1] e sono vicino ad avere il codice NTM nostrano da testare. Ho anche scremato almeno i seguenti documenti negli ultimi mesi; non replicano lo studio NTM in modo scientifico rigoroso, ma molti dei loro risultati sperimentali tendono a supportare l'originale almeno in modo tangente:
• In questo articolo su una versione variante dell'indirizzamento NTM, Gulcehere, et al. non tentano di replicare con precisione i test di Graves et al., ma come il team DeepMind, mostra risultati nettamente migliori per l'NTM originale e diverse varianti su un normale LSTM ricorrente. Usano 10.000 campioni di allenamento di un set di dati di domande e risposte di Facebook, piuttosto che N-grammi Graves et al. operato nel loro documento, quindi non è la replica nel senso più stretto. Sono comunque riusciti a ottenere una versione dell'NTM originale e diverse varianti funzionanti, oltre a registrare lo stesso livello di miglioramento delle prestazioni. 2
• A differenza della NTM originale, questo studio ha testato una versione dell'apprendimento per rinforzo che non era differenziabile; questo potrebbe essere il motivo per cui non sono stati in grado di risolvere alcuni dei compiti simili alla programmazione, come Ripeti-Copia, a meno che il controller non fosse limitato a spostarsi in avanti. I loro risultati furono comunque abbastanza buoni da dare supporto all'idea delle NTM. Apparentemente è disponibile una revisione più recente del loro documento, che devo ancora leggere, quindi forse alcuni dei problemi della loro variante sono stati risolti. 3
• Invece di testare il sapore originale di NTM contro le normali reti neurali come gli LSTM, questo documento lo ha confrontato con diverse strutture di memoria NTM più avanzate. Hanno ottenuto buoni risultati sullo stesso tipo di attività di programmazione di Graves et al. testato, ma non credo che stessero usando lo stesso set di dati (è difficile capire dal modo in cui il loro studio è stato scritto su quali set di dati stavano operando). 4
• A pag. 8 di questo studio , un NTM supera chiaramente diversi schemi LSTM, feed-forward e basati sul vicino più vicino in un set di dati di riconoscimento dei caratteri Omniglot. Un approccio alternativo alla memoria esterna elaborato dagli autori lo batte chiaramente, ma ovviamente funziona ancora bene. Gli autori sembrano appartenere a un team rivale di Google, quindi potrebbe essere un problema nella valutazione della replicabilità. 5
• A pag. 2 questi autori hanno riferito di ottenere una migliore generalizzazione su "sequenze molto grandi" in un test di attività di copia, utilizzando una rete NTM molto più piccola che si sono evoluti con l'algoritmo genetico NEAT, che aumenta dinamicamente le topologie. 6
Le NTM sono abbastanza nuove, quindi non ho ancora avuto molto tempo per replicare rigorosamente la ricerca originale, suppongo. La manciata di documenti che ho sfogliato durante l'estate, tuttavia, sembra dare supporto ai loro risultati sperimentali; Devo ancora vedere quelli che riportano tutt'altro che eccellenti prestazioni. Ovviamente ho una propensione alla disponibilità, dato che ho letto solo i pdf che ho potuto facilmente trovare in una ricerca su Internet imprudente. Da quel piccolo campione sembra che la maggior parte della ricerca di follow-up sia stata focalizzata sull'estensione del concetto, non sulla replica, che spiegherebbe la mancanza di dati sulla replicabilità. Spero che aiuti.
1 Graves, Alex; Wayne, Greg e Danihelka, Ivo, 2014, "Neural Turing Machines", pubblicato il 10 dicembre 2014.
2 Gulcehre, Caglar; Chandar, Sarath; Choy, Kyunghyun e Bengio, Yoshua, 2016, "Macchina di Neural Turing dinamica con schemi di indirizzamento soft e hard", pubblicato il 30 giugno 2016.
3 Zaremba, Wojciech e Sutskever, Ilya, 2015, "Reinforcement Learning Neural Turing Machines", pubblicato il 4 maggio 2015.
4 Zhang; Wei; Yu, Yang e Zhou, Bowen, 2015, "Memoria strutturata per macchine neurali di Turing", pubblicato il 25 ottobre 2015.
5 Santoro, Adamo; Bartunov, Sergey; Botvinick, Matthew; Wierstra, Daan e Lillicrap, Timothy, 2016, "One-Shot Learning with Memory-Augmented Neural Networks", pubblicato il 19 maggio 2016.
6 Boll Greve, Rasmus; Jacobsen, Emil Juul e Sebastian Risi, data sconosciuta, "Evolving Neural Turing Machines". Nessun editore elencato
Tutti tranne (forse) Boll Greve et al. sono stati pubblicati presso la Cornell Univeristy Library sul repository arXiv.org: Ithaca, New York.