Sto modellando 15000 tweet per la previsione del sentimento usando un LSTM a singolo strato con 128 unità nascoste usando una rappresentazione simile a word2vec con 80 dimensioni. Ottengo una precisione di discesa (38% con casuale = 20%) dopo 1 epoca. Un ulteriore addestramento fa declinare l'accuratezza della convalida man mano che l'accuratezza dell'allenamento inizia a salire, un chiaro segno di eccesso di adattamento.
Sto quindi pensando a come fare la regolarizzazione. Preferirei non ridurre il numero di unità nascoste (128 sembra già un po 'basso). Attualmente uso il dropout con una probabilità del 50%, ma questo potrebbe forse essere aumentato. L'ottimizzatore è Adam con i parametri predefiniti per Keras ( http://keras.io/optimizers/#adam ).
Quali sono alcuni modi efficaci per ridurre l'overfitting di questo modello nel mio set di dati?