Unità GRU COMPLETO
c~t=tanh(Wc[Gr∗ct−1,xt]+bc)
Gu=σ(Wu[ct−1,xt]+bu)
Gr=σ(Wr[ct−1,xt]+br)
ct=Gu∗c~t+(1−Gu)∗ct−1
at=ct
Unità LSTM
c~t=tanh(Wc[at−1,xt]+bc)
Gu=σ(Wu[at−1,xt]+bu)
Gf=σ(Wf[at−1,xt]+bf)
Go=σ(Wo[at−1,xt]+bo)
ct=Gu∗c~t+Gf∗ct−1
at=Go∗tanh(ct)
Come si può vedere dalle equazioni, gli LSTM hanno un gate di aggiornamento separato e dimenticano il gate. Ciò rende gli LSTM più sofisticati ma allo stesso tempo anche più complessi. Non esiste un modo semplice per decidere quale utilizzare per il proprio caso d'uso. Devi sempre fare prove ed errori per testare le prestazioni. Tuttavia, poiché il GRU è più semplice dell'LSTM, i GRU impiegheranno molto meno tempo ad allenarsi e saranno più efficienti.
Crediti: Andrew Ng