Che cos'è esattamente un blocco di apprendimento residuo nel contesto delle reti di residui profondi in apprendimento profondo?

Stavo leggendo il documento Deep Residual Learning for Image Recognition e ho avuto difficoltà a comprendere con certezza al 100% ciò che un blocco residuo comporta computazionalmente. Leggendo il loro articolo hanno la figura 2:

che illustra cosa dovrebbe essere un blocco residuo. Il calcolo di un blocco residuo è semplicemente lo stesso di:

y = σ (W_{2} σ (W_{1} x + b_{1}) + b_{2} + x)

$\mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} )$

O è qualcos'altro?

In altre parole, forse per provare ad abbinare la notazione del documento, è:

F (x) + x = [W_{2} σ (W_{1} x + b_{1}) + b_{2}] + x

$\mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x}$

è vero?

Si noti che dopo la sommatoria del cerchio, la parola ReLU appare sulla carta, quindi l'output di un blocco residuo (che ho indicato con ) dovrebbe essere: $\mathbf{y}$

σ (F (x) + x) = σ ([W_{2} σ (W_{1} x + b_{1}) + b_{2}] + x)

$\sigma( \mathcal F(x) + x ) = \sigma( \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} )$

con un'ulteriore non linearità ReLU . $\sigma$

— Charlie Parker
fonte

is x is positive relu (x) = x

— Ray Tayek,

Sì, è vero, puoi dare un'occhiata al loro modello di caffe per vedere come viene implementato.

— dontloo
fonte