Recentemente, abbiamo visto emergere la rete neurale residua, in cui ogni strato è costituito da un modulo computazionale e da una connessione di scelta rapida che preserva l'input allo strato come l'output del suo strato mostra: y i + 1 = c i + y i La rete consente di estrarre le caratteristiche residue e consente una profondità più profonda, pur essendo più robusta al problema del gradiente di fuga, ottenendo prestazioni all'avanguardia.
Dopo aver approfondito il potenziamento del gradiente , una tecnica di assemblaggio molto potente nel mondo dell'apprendimento automatico, che sembra anche eseguire una forma di ottimizzazione del gradiente sul residuo della perdita, è difficile non vedere alcuna forma di somiglianza.
So che sono simili ma non uguali : una delle principali differenze che ho notato è che l'aumento del gradiente esegue l'ottimizzazione sul termine additivo mentre la rete residua ottimizza l'intera rete.
Non ho visto He et al notarlo come parte della loro motivazione nel loro documento originale . Quindi mi chiedevo quali fossero le tue opinioni su questo argomento e ti chiedevo di condividere interessanti risorse che hai.
Grazie.