Le reti residue profonde dovrebbero essere viste come un insieme di reti?


12

La domanda riguarda l'architettura di Deep Residual Networks ( ResNets ). Il modello che ha vinto il 1 ° posto al "Large Scale Visual Recognition Challenge 2015" (ILSVRC2015) in tutte e cinque le tracce principali:

  • Classificazione ImageNet: reti a 152 strati “Ultra-deep” (quote Yann)
  • Rilevamento ImageNet: 16% migliore del 2 °
  • Localizzazione ImageNet: 27% migliore del 2 °
  • Rilevazione COCO: 11% migliore del 2 °
  • Segmentazione COCO: 12% migliore rispetto alla 2a

    fonte: concorsi MSRA @ ILSVRC e COCO 2015 (presentazione, seconda slide)

Questo lavoro è descritto nel seguente articolo:

Apprendimento residuo profondo per il riconoscimento delle immagini (2015, PDF)


Team di ricerca Microsoft (sviluppatori di ResNets: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun) nel loro articolo:

" Identity Mapping in Deep Residual Networks (2016) "

affermare che la profondità gioca un ruolo chiave:

" Otteniamo questi risultati attraverso un concetto semplice ma essenziale - andando più in profondità. Questi risultati dimostrano il potenziale di spingere i limiti della profondità " .

Si sottolinea anche nella loro presentazione (più profonda - migliore):

- "Un modello più profondo non dovrebbe avere un errore di addestramento superiore."
- "Le reti più profonde presentano un errore di allenamento più basso e anche un errore di test inferiore."
- "Deeper ResNets hanno un errore inferiore."
- "Tutti beneficiano maggiormente delle funzionalità più profonde - guadagni cumulativi!"
- "Deeper è ancora meglio".

Ecco la struttura del residuo a 34 strati (per riferimento): inserisci qui la descrizione dell'immagine


Ma recentemente ho trovato una teoria che introduce una nuova interpretazione delle reti residue dimostrando che sono insiemi esponenziali:

Le reti residue sono insiemi esponenziali di reti relativamente basse (2016)

I deep resnet sono descritti come molte reti poco profonde le cui uscite sono raggruppate a varie profondità. C'è una foto nell'articolo. Lo allego con una spiegazione:

inserisci qui la descrizione dell'immagineLe reti residue sono convenzionalmente mostrate come (a), che è una rappresentazione naturale dell'equazione (1). Quando espandiamo questa formulazione all'equazione (6), otteniamo una vista non dipinta di una rete residua a 3 blocchi (b). Da questo punto di vista, è evidente che le reti residue hanno O (2 ^ n) percorsi impliciti che collegano input e output e che l'aggiunta di un blocco raddoppia il numero di percorsi.

In conclusione dell'articolo si afferma:

Non è la profondità, ma l'insieme che rende forti le reti residue . Le reti residue spingono i limiti della molteplicità della rete, non della profondità della rete. La nostra visione svelata proposta e lo studio delle lesioni mostrano che le reti residue sono un insieme implicito di molte reti esponenzialmente. Se la maggior parte dei percorsi che contribuiscono al gradiente sono molto brevi rispetto alla profondità complessiva della rete, una maggiore profondità da sola non può essere la caratteristica chiave delle reti residue. Ora crediamo che la molteplicità , l'espressività della rete in termini di numero di percorsi, svolga un ruolo chiave .

Ma è solo una teoria recente che può essere confermata o confutata. A volte capita che alcune teorie vengano confutate e gli articoli ritirati.


Dopotutto dovremmo pensare alle ResNets profonde come a un insieme? L'insieme o la profondità rendono le reti residue così forti? È possibile che anche gli stessi sviluppatori non percepiscano del tutto ciò che rappresenta il loro modello e qual è il concetto chiave in esso?

Risposte:


4

Immagina che un genio ti conceda tre desideri. Poiché sei un ambizioso ricercatore di deep learning, il tuo primo desiderio è una soluzione perfetta per un NN a 1000 strati per Image Net, che appare prontamente sul tuo laptop.

Ora una soluzione indotta dal genio non ti dà alcuna intuizione su come potrebbe essere interpretata come un insieme, ma credi davvero di aver bisogno di 1000 strati di astrazione per distinguere un gatto da un cane? Come menzionano gli autori dell '"ensemble paper", questo non è assolutamente vero per i sistemi biologici.

Ovviamente potresti sprecare il tuo secondo desiderio in una scomposizione della soluzione in un insieme di reti, e sono abbastanza sicuro che il genio sarebbe in grado di soddisfare. Il motivo è che parte del potere di una rete profonda verrà sempre dall'effetto ensemble.

Quindi non sorprende che due trucchi di grande successo per addestrare reti profonde, dropout e reti residue, abbiano un'interpretazione immediata come insieme implicito. Pertanto "non è profondità, ma l'insieme" mi sembra una falsa dicotomia. Diresti davvero che se onestamente credessi di aver bisogno di centinaia o migliaia di livelli di astrazione per classificare le immagini con precisione umana.

Ti suggerisco di usare l'ultimo desiderio per qualcos'altro, forse una pinacolada.


0

Reti casuali residue per molte non linearità come la tanh vivono ai margini del caos, in quanto la distanza del coseno di due vettori di ingresso converge in un punto fisso a una frequenza polinomiale, piuttosto che a una velocità esponenziale, come con le reti di vaniglia tanh. Pertanto, una tipica rete residua attraverserà lentamente il confine stabile-caotico con profondità, volando attorno a questo confine per molti strati. Fondamentalmente non "dimentica" la geometria dello spazio di input "molto rapidamente". Quindi, anche se li rendiamo notevolmente profondi, funzionano meglio le reti vanilla.

Per ulteriori informazioni sulla propagazione delle informazioni nelle reti residue - Reti residue sul campo medio: al limite del caos

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.