Ho una buona comprensione generale del ruolo e del meccanismo dei livelli convoluzionali in Deep Learning per l'elaborazione delle immagini in caso di implementazioni 2D o 3D: "semplicemente" cercano di catturare modelli 2D nelle immagini (in 3 canali in caso di 3D).
Ma recentemente mi sono imbattuto in strati convoluzionali 1D nel contesto dell'elaborazione del linguaggio naturale, il che è una sorta di sorpresa per me, perché nella mia comprensione la convoluzione 2D viene utilizzata soprattutto per catturare modelli 2D che sono impossibili da rivelare in forma 1D (vettoriale) di pixel dell'immagine. Qual è la logica dietro la convoluzione 1D?