La differenza tra `Dense` e` TimeDistributedDense` di `Keras`

Sono ancora confuso sulla differenza tra Densee TimeDistributedDensedi Kerasanche se ci sono già alcune domande simili poste qui e qui . Le persone discutono molto, ma nessuna conclusione condivisa.

E anche se, qui , @fchollet ha dichiarato che:

TimeDistributedDenseapplica una stessa operazione Dense(completamente connessa) a ogni timestep di un tensore 3D.

Ho ancora bisogno di un'illustrazione dettagliata su quale sia esattamente la differenza tra loro.

machine-learning neural-network keras

— fluency03
fonte

Supponiamo che tu abbia dati di serie temporali con righe e colonne che desideri alimentare a un livello in Keras. Prima di inviarlo a RNN, è necessario rimodellare i dati precedenti in un tensore 3D. Quindi diventa un . $N$ $700$ SimpleRNN(200, return_sequence=True) $N \times 700 \times 1$

RNN non srotolato

^{L'immagine è tratta da https://colah.github.io/posts/2015-08-Understanding-LSTMs}

In RNN, le colonne (le "700 colonne") rappresentano i timestep di RNN. I tuoi dati vengono elaborati da . Dopo aver fornito i dati a RNN, ora ha 700 output che sono da a , non da a . Ricorda che ora la forma dei tuoi dati è che è campioni (le righe) x timesteps (le colonne) x canali . $t=1 \ to \ 700$ $h_1$ $h_{700}$ $h_1$ $h_{200}$ $N \times 700 \times 200$

Quindi, quando applichi a TimeDistributedDense, stai applicando un Denselivello su ogni timestep, il che significa che stai applicando un Denselivello su ogni , , ..., rispettivamente. Il che significa: in realtà stai applicando l'operazione completamente connessa su ciascuno dei suoi canali (quello "200"), rispettivamente, da a . Il primo " " fino al 700 ° " ". $h_1$ $h_2$ $h_t$ $h_1$ $h_{700}$ $1 \times 1 \times 200$ $1 \times 1 \times 200$

Perché stiamo facendo questo? Perché non si desidera appiattire l'output RNN.

Perché non appiattire l'uscita RNN? Perché vuoi mantenere separati i valori di ogni timestep.

Perché mantenere separati i valori di ogni timestep? Perché:

vuoi solo interagire i valori tra il proprio timestep
non vuoi avere un'interazione casuale tra diversi timestep e canali.

— rilut
fonte

Quindi, quando applichi un TimeDistributedDense, stai applicando un livello Denso su ogni timestep -> Ciò significa che ogni timestep condivide il peso del livello Dense? Con il livello Denso non si applica solo all'ultimo timestep?

— o0omycomputero0o

Perché TimeDistributedDense non è usato nell'esempio di Keras su blog.keras.io/… ?

— user1934212

Perché TimeDistributedDense è già obsoleto. Da Keras 2.0, Dense è in grado di gestire bene il tensore bidimensionale

— rilut