Una memoria a breve termine (LSTM) è un'architettura di rete neurale che contiene blocchi NN ricorrenti che possono ricordare un valore per un periodo di tempo arbitrario.
LSTM è stato inventato appositamente per evitare il problema del gradiente di sparizione. Si suppone che lo faccia con il Constant Error Carousel (CEC), che sul diagramma sottostante (da Greff et al. ) Corrisponde al loop attorno alla cella . (fonte: deeplearning4j.org ) E capisco che quella parte può essere …
Ho studiato LSTM per un po '. Capisco ad alto livello come funziona tutto. Tuttavia, andando a implementarli usando Tensorflow, ho notato che BasicLSTMCell richiede un numero di unità (es. num_units) Parametro. Da questa spiegazione molto approfondita degli LSTM, ho scoperto che una singola unità LSTM è una delle seguenti …
La mia perdita di allenamento diminuisce e poi aumenta di nuovo. È molto strano. La perdita di convalida incrociata tiene traccia della perdita di addestramento. Cosa sta succedendo? Ho due LSTMS in pila come segue (su Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) …
Quali sono i vantaggi, perché si dovrebbero usare più LSTM, accatastati uno accanto all'altro, in una rete profonda? Sto usando un LSTM per rappresentare una sequenza di input come un singolo input. Quindi una volta che ho quella singola rappresentazione, perché dovrei passarla di nuovo? Lo sto chiedendo perché l'ho …
Negli ultimi anni sono stati utilizzati meccanismi di attenzione in vari articoli di Deep Learning. Ilya Sutskever, responsabile della ricerca presso Open AI, li ha entusiasti con entusiasmo: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello alla Purdue University ha affermato che le RNN e le LSTM dovrebbero essere abbandonate a favore di reti neurali …
Sto cercando di usare l'esempio descritto nella documentazione di Keras denominata "Stacked LSTM per la classificazione delle sequenze" (vedere il codice seguente) e non riesco a capire il input_shapeparametro nel contesto dei miei dati. Ho come input una matrice di sequenze di 25 possibili caratteri codificati in numeri interi in …
Sto cercando di comprendere diverse architetture di reti neurali ricorrenti (RNN) da applicare ai dati delle serie temporali e mi sto confondendo un po 'con i diversi nomi che vengono frequentemente utilizzati nella descrizione di RNN. La struttura della memoria a breve termine (LSTM) e della Gated Recurrent Unit (GRU) …
Ho usato theano per sperimentare LSTM e mi chiedevo quali metodi di ottimizzazione (SGD, Adagrad, Adadelta, RMSprop, Adam, ecc.) Funzionino meglio per gli LSTM? Ci sono articoli di ricerca su questo argomento? Inoltre, la risposta dipende dal tipo di applicazione per cui sto usando LSTM? In tal caso, sto usando …
Di recente mi sono interessato agli LSTM e sono stato sorpreso di apprendere che i pesi sono condivisi nel tempo. So che se condividi i pesi nel tempo, le sequenze temporali di input possono avere una lunghezza variabile. Con i pesi condivisi hai molti meno parametri da allenare. Secondo la …
Ho un problema molto semplice ma non riesco a trovare lo strumento giusto per risolverlo. Ho una sequenza di vettori della stessa lunghezza. Ora vorrei addestrare LSTM RNN sul treno campione di queste sequenze e poi farlo predire una nuova sequenza di vettori di lunghezza basata su diversi vettori di …
Sto esaminando il seguente blog sulla rete neurale LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ L'autore rimodella il vettore di input X come [campioni, intervalli di tempo, funzionalità] per diverse configurazioni di LSTM. L'autore scrive In effetti, le sequenze di lettere sono fasi temporali di una funzione anziché una fase temporale di funzioni separate. Abbiamo …
Sto esaminando l'utilizzo di una versione LSTM ( memoria a breve termine ) di una rete neurale ricorrente (RNN) per la modellazione dei dati di serie temporali. All'aumentare della lunghezza della sequenza dei dati, aumenta la complessità della rete. Sono quindi curioso di sapere quale lunghezza delle sequenze sarebbe possibile …
Sto cercando di capire l'applicazione ad alto livello di RNN per l'etichettatura in sequenza tramite (tra gli altri) il documento di Graves del 2005 sulla classificazione dei fonemi. Riassumendo il problema: disponiamo di un ampio set di formazione costituito da file audio (di input) di singole frasi e orari di …
Sto modellando 15000 tweet per la previsione del sentimento usando un LSTM a singolo strato con 128 unità nascoste usando una rappresentazione simile a word2vec con 80 dimensioni. Ottengo una precisione di discesa (38% con casuale = 20%) dopo 1 epoca. Un ulteriore addestramento fa declinare l'accuratezza della convalida man …
Sto usando una rete lstm e feed-forward per classificare il testo. Converto il testo in vettori one-hot e inserisco ciascuno in lstm in modo da poterlo riassumere in un'unica rappresentazione. Quindi lo invio all'altra rete. Ma come posso addestrare lstm? Voglio solo classificare in sequenza il testo: dovrei dargli da …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.