Di recente mi sono interessato agli LSTM e sono stato sorpreso di apprendere che i pesi sono condivisi nel tempo.
So che se condividi i pesi nel tempo, le sequenze temporali di input possono avere una lunghezza variabile.
Con i pesi condivisi hai molti meno parametri da allenare.
Secondo la mia comprensione, il motivo per cui uno si trasformerebbe in un LSTM rispetto ad altri metodi di apprendimento è perché credi che ci sia una sorta di struttura / dipendenza temporale / sequenziale nei tuoi dati che vorresti imparare. Se sacrifichi il "lusso" di lunghezza variabile e accetti lunghi tempi di calcolo, un RNN / LSTM senza pesi condivisi (cioè per ogni passaggio in cui hai pesi diversi) avrebbe prestazioni migliori o c'è qualcosa che mi manca?