Stavo leggendo il documento Deep Residual Learning for Image Recognition e ho avuto difficoltà a comprendere con certezza al 100% ciò che un blocco residuo comporta computazionalmente. Leggendo il loro articolo hanno la figura 2:
che illustra cosa dovrebbe essere un blocco residuo. Il calcolo di un blocco residuo è semplicemente lo stesso di:
O è qualcos'altro?
In altre parole, forse per provare ad abbinare la notazione del documento, è:
è vero?
Si noti che dopo la sommatoria del cerchio, la parola ReLU appare sulla carta, quindi l'output di un blocco residuo (che ho indicato con ) dovrebbe essere:
con un'ulteriore non linearità ReLU .