Le reti residue sono correlate all'aumento gradiente?


11

Recentemente, abbiamo visto emergere la rete neurale residua, in cui ogni strato è costituito da un modulo computazionale e da una connessione di scelta rapida che preserva l'input allo strato come l'output del suo strato mostra: y i + 1 = c i + y i La rete consente di estrarre le caratteristiche residue e consente una profondità più profonda, pur essendo più robusta al problema del gradiente di fuga, ottenendo prestazioni all'avanguardia.ci

yi+1=ci+yi

Dopo aver approfondito il potenziamento del gradiente , una tecnica di assemblaggio molto potente nel mondo dell'apprendimento automatico, che sembra anche eseguire una forma di ottimizzazione del gradiente sul residuo della perdita, è difficile non vedere alcuna forma di somiglianza.

So che sono simili ma non uguali : una delle principali differenze che ho notato è che l'aumento del gradiente esegue l'ottimizzazione sul termine additivo mentre la rete residua ottimizza l'intera rete.

Non ho visto He et al notarlo come parte della loro motivazione nel loro documento originale . Quindi mi chiedevo quali fossero le tue opinioni su questo argomento e ti chiedevo di condividere interessanti risorse che hai.

Grazie.

Risposte:


7

Potenzialmente un articolo più recente che tenta di indirizzarne una parte in più dal team di Langford e Shapire: l' apprendimento di blocchi Deep ResNet in sequenza utilizzando la teoria del potenziamento

Parti di interesse sono (Vedi sezione 3):

t=0Tft(gt(x))wt

ot(x):=wtTgt(x)R

...

ot(x)=t=0t1wtTft(gt(x))

ht(x)


Aggiungendo un po 'più di dettaglio a questa risposta, tutti gli algoritmi di potenziamento possono essere scritti in una forma di [1] (p 5, 180, 185 ...):

FT(x):=t=0Tαtht(x)

httthαtαtht

htϵtαt=12log1ϵtϵt

htL(Ft1(x))htαt>0

TF(x)

F(x)t=0Tht(x)

FT(x):=t=0Tαtht(x)

[1] Robert E. Schapire e Yoav Freund. 2012. Boosting: fondamenti e algoritmi. La stampa del MIT. p 5, 180, 189
[2] Furong Huang, Jordan Ash, John Langford, Robert Schapire: apprendimento dei blocchi Deep ResNet in sequenza usando Boosting Theory, ICML 2018


4

Rispondere alla mia domanda: ho trovato un documento notevole che indaga e dimostra che le reti di residui profondi sono davvero un insieme di reti superficiali.

UN ALTRO EDIT, dopo aver compreso questo problema un po 'di più: guardo a Resnets come un modo per imparare "Feature Boosting". La connessione residua esegue il potenziamento, ma non sull'obiettivo ma effettivamente sulle funzionalità di output del livello successivo. Quindi sono in realtà collegati, ma non è il classico aumento del gradiente, ma in effetti "Gradient Feature Boosting".

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.