Allora, qual è il problema con LSTM?


12

Sto espandendo la mia conoscenza del pacchetto Keras e ho lavorato con alcuni dei modelli disponibili. Ho un problema di classificazione binaria NLP che sto cercando di risolvere e ho applicato diversi modelli.

Dopo aver lavorato con alcuni risultati e aver letto sempre di più su LSTM, sembra che questo approccio sia di gran lunga superiore a qualsiasi altra cosa abbia provato (su più set di dati). Continuo a pensare a me stesso, "perché / quando non dovresti usare LSTM?". L'uso delle porte aggiuntive, inerente a LSTM, ha perfettamente senso per me dopo aver avuto alcuni modelli che soffrono di sfumature evanescenti.

Allora, qual è il problema con LSTM? Dove non lo fanno così bene? So che non esiste un algoritmo "taglia unica", quindi ci deve essere un aspetto negativo di LSTM.


Prova GRU, sono come LSTM ma richiedono meno memoria e si allenano più velocemente.
Vivek Khetan,

Risposte:


11

Hai ragione sul fatto che gli LSTM funzionano molto bene per alcuni problemi, ma alcuni degli svantaggi sono:

  • Gli LSTM impiegano più tempo ad allenarsi
  • Gli LSTM richiedono più memoria per il training
  • Gli LSTM sono facili da equipaggiare
  • Il dropout è molto più difficile da implementare negli LSTM
  • Gli LSTM sono sensibili alle diverse inizializzazioni di peso casuale

Questi sono in confronto a un modello più semplice come una rete conv 1D, per esempio.

I primi tre elementi sono perché gli LSTM hanno più parametri.


3
D'accordo, e penso che il sovrautilizzo (noto anche come scarsa generalizzazione) sia forse il rischio maggiore. Assicurati di avere una buona strategia per fare la validazione del modello.
tom
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.