Che cos'è esattamente un blocco di apprendimento residuo nel contesto delle reti di residui profondi in apprendimento profondo?


12

Stavo leggendo il documento Deep Residual Learning for Image Recognition e ho avuto difficoltà a comprendere con certezza al 100% ciò che un blocco residuo comporta computazionalmente. Leggendo il loro articolo hanno la figura 2:

inserisci qui la descrizione dell'immagine

che illustra cosa dovrebbe essere un blocco residuo. Il calcolo di un blocco residuo è semplicemente lo stesso di:

y=σ(W2σ(W1x+b1)+b2+x)

O è qualcos'altro?

In altre parole, forse per provare ad abbinare la notazione del documento, è:

F(x)+x=[W2σ(W1x+b1)+b2]+x

è vero?

Si noti che dopo la sommatoria del cerchio, la parola ReLU appare sulla carta, quindi l'output di un blocco residuo (che ho indicato con ) dovrebbe essere:y

σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x)

con un'ulteriore non linearità ReLU .σ


is x is positive relu (x) = x
Ray Tayek,

Risposte:


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.