Che cos'è una formulazione LSTM-LM?

Sto leggendo questo documento "Sequence to Sequence Learning with Neural Networks" http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf

Sotto "2. Il modello" si dice:

L'LSTM calcola questa probabilità condizionale ottenendo prima la rappresentazione dimensionale fissa v della sequenza di input (x1,..., XT) data dall'ultimo stato nascosto dell'LSTM, e quindi calcolando la probabilità di y1,. . . , yT ′ con una formulazione LSTM-LM standard il cui stato nascosto iniziale è impostato sulla rappresentazione v di x1 ,. . . , xT:

So cos'è un LSTM, ma cos'è un LSTM-LM? Ho provato a cercarlo su Google ma non riesco a trovare buoni contatti.

— Taevanbat Mongol
fonte

Ma questa frase è ancora sconcertante per me. se lo metto in equazione se fa ! [ ] ( i.stack.imgur.com/0Lv8L.png ) ! [(https://i.stack.imgur.com/et5Sf.png) con c l'ultimo stato nascosto di l'encoder. quindi il primo stato nascosto rappresenta l'informazione fornita dall'encoder ma i successivi rappresentano la distribuzione di probabilità degli elementi della sequenza target: qualcosa di natura radicalmente diversa. Anche l'inizializzazione dello stato di cella non è data e la figura 1 fa credere che l'LSTM provveda

— Charles Englebert,

Risposte:

La definizione di un modello di linguaggio (LM) è una distribuzione di probabilità su sequenze di parole.

La semplice illustrazione di un LM sta predicendo la parola successiva data le parole precedenti.

Ad esempio, se ho un modello linguistico e alcune parole iniziali:

Ho impostato la mia parola iniziale su My
Il mio modello prevede un'alta probabilità che nameappare dopo My.
Impostando le parole iniziali su My name, il mio modello prevede un'alta probabilità che isappare dopo My name.
Quindi è come: My-> My name-> My name is-> My name is Tome così via.

Puoi pensare al completamento automatico sulla tastiera dello smartphone. In effetti, LM è il cuore dei completamenti automatici.

Quindi, LSTM-LM sta semplicemente usando un LSTM (e la funzione softmax) per prevedere la parola successiva data le parole precedenti.

A proposito, Language Model non è limitato a LSTM, altri RNN (GRU) o altri modelli strutturati. In effetti, puoi anche utilizzare reti feedforward con finestra di contesto / scorrevole / scorrevole per prevedere la parola successiva in base alle tue parole iniziali.

— rilut
fonte

Ciò modifica in qualche modo la formulazione dell'LSTM stesso?

— Taevanbat Mongol,

O cambia il modo in cui gli LSTM sono collegati insieme?

— Taevanbat Mongol,

IMHO, forse significa un LSTM ottimizzato per LM (Language Modeling). Sto leggendo lo stesso documento e questa è la mia comprensione

— Ali,

@TaevanbatMongol no non sta cambiando la formulazione LSTM. Hai solo bisogno di una funzione softmax (o qualcosa del genere) per generare la probabilità di parole dall'output

— LSTM

Probabilità di parole significa che se sommi la probabilità / il punteggio dell'output di un timestep, sarà uguale a 1

— rilut

In questo contesto, penso che significhi che prendi la rappresentazione di output e impari un ulteriore livello di softmax che corrisponde ai token nel tuo modello linguistico (in questo caso le lettere).

— Bhav Ashok
fonte