Adattamento dinamico dell'architettura NN: inventare l'inutile?


9

Sto iniziando il mio percorso di dottorato di ricerca e l'obiettivo finale che mi ero prefissato è sviluppare ANNs che monitorassero l'ambiente in cui lavorano e adeguassero dinamicamente la loro architettura al problema attuale. L'ovvia implicazione è la temporalità dei dati: se il set di dati non è continuo e non cambia nel tempo, perché adattarsi?

La grande domanda è: con la recente ascesa del deep learning, è ancora un argomento rilevante? Le FFNN hanno la possibilità di trovarsi una nicchia nei problemi di deriva dei concetti?

Temo di sovraccaricare il thread con troppe domande, ma questa non è del tutto fuori tema: sono a conoscenza di RNN, ma ho un'esperienza limitata (ok, nessuna o puramente teorica) con loro; Credo che l'adattamento dinamico dell'architettura debba essere un argomento rilevante nel contesto degli RNN. La domanda è: è già stata data una risposta e reinventerò la ruota?

PS Trasmissione incrociata a MetaOptimize


Quando dici "regola la loro architettura" intendi i parametri (pesi, distorsioni) o aggiornando la struttura effettiva della rete (nodi nascosti, funzione di attivazione, connettività, ecc.)? Inoltre, in molte applicazioni di deep learning il risultato finale è una rete neurale feed forward, solo una con pesi inizializzati da un processo non supervisionato.
alto,

@alto, mi riferisco all'attuale struttura NN - numero di unità nascoste e (possibilmente) livelli - Sono sicuro che può essere implementato a diversi livelli di complessità. Sento che devo iniziare a leggere sull'apprendimento profondo se devo arrivare ovunque.
anna-earwen,

@ anna-earwen argomento di dottorato interessante, come va, qualche pubblicazione ancora?
Dikran Marsupial,

1
@Dikran Marsupial, presto andrò all'IJCNN 2014 per parlare di come e perché PSO non riesce ad addestrare NN ad alta dimensione. Quindi la risposta è sì e lo so: ho preso una grande deviazione dal vettore di ricerca originale e mi chiedo se tornerò ancora alle architetture adattabili. Solo il tempo e i risultati empirici lo diranno!
anna-earwen,

Lo cercherò nei procedimenti: capire perché le cose non funzionano è qualcosa di cui la scienza ha bisogno di più (e solidi studi empirici).
Dikran Marsupial

Risposte:


6

Le reti neurali a correlazione in cascata regolano la loro struttura aggiungendo nodi nascosti durante il processo di addestramento, quindi questo potrebbe essere un punto di partenza. La maggior parte degli altri lavori che ho visto che regola automaticamente il numero di strati, il numero di nodi nascosti, ecc., Di una rete neurale utilizza algoritmi evolutivi.

Sfortunatamente, questo lavoro è fuori dalla mia area, quindi non posso raccomandare particolari documenti o riferimenti per aiutarti a iniziare. Posso dirti che non ho visto alcun lavoro che tenti di ottimizzare congiuntamente la struttura della rete e i parametri contemporaneamente all'interno della comunità del deep learning. In effetti, la maggior parte delle architetture di apprendimento profondo si basa sull'apprendimento avido di un singolo strato alla volta, rendendo così anche l'apprendimento online delle reti neurali profonde un'area piuttosto incontaminata (il lavoro di Martens et al. Sull'ottimizzazione libera dell'Assia è una notevole eccezione).


Grazie mille, mi hai già dato abbastanza informazioni per iniziare a cercare l'oro. :)
anna-earwen il

2

Un altro motivo per considerare lo sviluppo di nuovi approcci alle reti neurali costruttive (come citato l'algoritmo CC @alto) è nelle applicazioni al di fuori delle statistiche . In particolare, nelle neuroscienze teoriche e nelle scienze cognitive, le reti neurali costruttive sono spesso utilizzate a causa di una somiglianza metaforica con lo sviluppo e la neurogenesi. Per un esempio dell'uso pesante della correlazione a cascata per questo, dai un'occhiata alle pubblicazioni di Thomas R. Shultz . Sfortunatamente, l'approccio di correlazione in cascata è biologico non realistico e se si ha una curva neuroscientifica vale la pena considerare come nuove NN con architettura regolabile potrebbero essere utilizzate come migliori modelli di sviluppo e / o neurogenesi.


1
Grazie Artem! In realtà, sono più un puro scienziato informatico di ogni altra cosa, quindi la mia conoscenza della scienza neurologica e congnativa è meno che scarsa. Sembra eccitante, però, e poiché tutte le strade sono ancora aperte, potrei approfondire anche questo - almeno in una certa misura. Al momento sono particolarmente interessato alle applicazioni dei problemi di ingegneria e analisi dei dati nella vita reale che potrebbero funzionare per il benchmarking.
anna-earwen,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.