Teorema universale di approssimazione per reti convoluzionali


14

Il teorema di approssimazione universale è un risultato abbastanza famoso per le reti neurali, in sostanza affermando che sotto alcuni presupposti, una funzione può essere approssimata uniformemente da una rete neurale con qualsiasi precisione.

C'è qualche risultato analogo che si applica alle reti neurali convoluzionali?

Risposte:


7

Questa è una domanda interessante, tuttavia, manca un adeguato chiarimento di ciò che è considerata una rete neurale convoluzionale .

L'unico requisito che la rete deve includere un'operazione di convoluzione? Deve includere solo operazioni di convoluzione? Sono ammesse le operazioni di pooling? Le reti convoluzionali utilizzate nella pratica usano una combinazione di operazioni, spesso includendo livelli completamente connessi (non appena si hanno livelli completamente connessi, si ha una capacità teorica di approssimazione universale).

Per fornirti una risposta, considera il seguente caso: Uno strato completamente collegato con ingressi e uscite viene realizzato usando una matrice di peso . Puoi simulare questa operazione usando 2 livelli di convoluzione:DKWRK×D

  1. Il primo ha filtri di forma . L'elemento del filtro è uguale a , il resto sono zeri. Questo strato trasforma l'input in uno spazio intermedio tridimensionale dove ogni dimensione rappresenta un prodotto di un peso e il suo input corrispondente.K×DDdk,dWk,dKD

  2. Il secondo strato contiene filtri di forma . Gli elementi del filtro sono uno, gli altri sono zeri. Questo livello esegue la somma dei prodotti del livello precedente.KKDkD(k+1)Dk

Tale rete convoluzionale simula una rete completamente connessa e quindi ha le stesse capacità di approssimazione universale. Sta a te valutare quanto utile sia un esempio del genere in pratica, ma spero che risponda alla tua domanda.


1
Una tale costruzione è piuttosto ovvia, ma vale solo per le condizioni al contorno dell'imbottitura zero. Con l'esigenza più naturale, ad esempio delle condizioni al contorno periodiche (che rende l'equivalente della traduzione dell'operatore), fallisce.
Jonas Adler,

1
Sì, questa costruzione ovvia presuppone che la convoluzione sia applicata solo sull'input (nessuna imbottitura). Come ho detto, a meno che non specifichi cosa è consentito e cosa non rientra nella definizione di CNN, presumo che si tratti di un approccio valido. Inoltre, nota che le implicazioni pratiche dell'UAT non sono praticamente nessuna, quindi non sono sicuro che abbia senso scavare troppo in profondità in questo, specificando varie versioni della CNN e dimostrando qualcosa di simile per ognuna di esse.
Jan Kukacka,

5

Sembra che questa domanda abbia avuto una risposta affermativa in questo recente articolo di Dmitry Yarotsky: approssimazioni universali di mappe invarianti da parte di reti neurali .

L'articolo mostra che qualsiasi funzione equivalente di traduzione può essere approssimata arbitrariamente bene da una rete neurale convoluzionale dato che è sufficientemente ampia, in analogia diretta con il teorema di approssimazione universale classico.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.