Penso che ci siano un paio di cose che ti confondono, quindi prima le cose.
x[n]h[n]x[n]h [ n ]y[ n ] = ( x ⋆ h ) [ n ]
y[ n ] = ∑m = - ∞∞x [ m ] h [ n - m ]
Quanto sopra se per segnali monodimensionali, ma lo stesso si può dire per le immagini, che sono solo segnali bidimensionali. In tal caso, l'equazione diventa:
ion e w[ r , c ] = ∑u = - ∞∞Σv = - ∞∞ioo l d[u,v] k[r−u,c−v]
Pittoricamente, questo è ciò che sta accadendo:

Ad ogni modo, la cosa da tenere a mente è che il kernel , in realtà, ha imparato durante l'allenamento di una rete neurale profonda (DNN). Un kernel sarà solo quello con cui contrai il tuo input. Il DNN imparerà il kernel, in modo tale da far emergere alcune sfaccettature dell'immagine (o dell'immagine precedente), che saranno buone per ridurre la perdita del tuo obiettivo.
Questo è il primo punto cruciale da capire: tradizionalmente le persone hanno progettato i kernel, ma in Deep Learning, lasciamo che la rete decida quale dovrebbe essere il kernel migliore. L'unica cosa che specifichiamo, tuttavia, sono le dimensioni del kernel. (Questo si chiama iperparametro, ad esempio 5x5 o 3x3, ecc.).