La funzione di costo della rete neurale non è convessa?


36

La funzione di costo della rete neurale è e si afferma che non sia convessa . Non capisco bene perché sia ​​così, dal momento che come vedo è abbastanza simile alla funzione di costo della regressione logistica, giusto?J(W,b)

Se non è convesso, quindi la derivata del 2 ° ordine , giusto?JW<0

AGGIORNARE

Grazie alle risposte di seguito e al commento di @ gung, ho capito bene: se non ci sono strati nascosti, è convesso, proprio come la regressione logistica. Ma se ci sono livelli nascosti, permutando i nodi nei livelli nascosti e i pesi nelle connessioni successive, potremmo avere più soluzioni dei pesi risultanti nella stessa perdita.

Ora altre domande,

1) Esistono più minimi locali e alcuni di essi dovrebbero avere lo stesso valore, poiché corrispondono ad alcuni nodi e permutazioni di pesi, giusto?

2) Se i nodi e i pesi non saranno affatto permutati, allora è convesso, giusto? E i minimi saranno i minimi globali. In tal caso, la risposta a 1) è: tutti quei minimi locali avranno lo stesso valore, giusto?


Non è convesso in quanto possono esserci più minimi locali.
gung - Ripristina Monica

2
Dipende dalla rete neurale. Le reti neurali con funzioni di attivazione lineare e perdita quadrata produrranno ottimizzazione convessa (se la mia memoria mi serve anche per le reti di funzioni di base radiale con varianze fisse). Tuttavia le reti neurali sono principalmente utilizzate con funzioni di attivazione non lineari (ad esempio sigmoide), quindi l'ottimizzazione diventa non convessa.
Cagdas Ozgenc,

@gung, ho capito il tuo punto e ora ho altre domande, per favore vedi il mio aggiornamento :-)
avocado

5
A questo punto (2 anni dopo), potrebbe essere meglio riportare la domanda alla versione precedente, accettare una delle risposte di seguito e porre una nuova domanda di follow-up che si collega a questa per contesto.
gung - Ripristina Monica

1
@gung, sì, hai ragione, ma ora non sono abbastanza sicuro di alcuni aspetti della risposta che ho votato prima. Bene, poiché ho lasciato alcuni nuovi commenti sulle risposte di seguito, aspetterei un po 'per vedere se è necessario chiederne uno nuovo.
avocado,

Risposte:


25

La funzione di costo di una rete neurale non è generalmente né convessa né concava. Ciò significa che la matrice di tutti i secondi derivati ​​parziali (l'Assia) non è né semidefinito positivo né semidefinito negativo. Poiché la seconda derivata è una matrice, è possibile che non sia né l'uno né l'altro.

Per rendere questo analogo alle funzioni a una variabile, si potrebbe dire che la funzione di costo non ha la forma del grafico di né del grafico di . Un altro esempio di una funzione non convessa e non concava è su . Una delle differenze più sorprendenti è che ha un solo estremo, mentre ha infiniti massimi e minimi. - x 2 sin ( x ) R ± x 2 sinx2x2sin(x)R±x2sin

In che modo ciò si collega alla nostra rete neurale? Una funzione di costo ha anche un numero di massimi e minimi locali, come puoi vedere in questa immagine , ad esempio.J(W,b)

Il fatto che abbia più minimi può anche essere interpretato in modo carino. In ogni livello, si utilizzano più nodi a cui sono assegnati parametri diversi per ridurre la funzione di costo. Ad eccezione dei valori dei parametri, questi nodi sono uguali. Quindi è possibile scambiare i parametri del primo nodo in un livello con quelli del secondo nodo nello stesso livello e tenere conto di questa modifica nei livelli successivi. Si finirebbe con un diverso set di parametri, ma il valore della funzione di costo non può essere distinto da (sostanzialmente hai appena spostato un nodo, in un altro posto, ma mantenendo tutti gli input / output uguali).J


OK, capisco la spiegazione della permutazione che hai fatto, penso che abbia un senso, ma ora mi chiedo sia questo autentico per spiegare perché la rete neurale non è convessa?
avocado,

1
Cosa intendi con "autentico"?
Roland,

Voglio dire, è così che dovrebbe essere interpretato, non solo un'analogia.
avocado,

4
@loganecolss Hai ragione sul fatto che questa non è l'unica ragione per cui le funzioni di costo non sono convesse, ma una delle ragioni più ovvie. A seconda della rete e del set di formazione, potrebbero esserci altri motivi per cui vi sono più minimi. Ma la linea di fondo è: la sola permutazione crea non convessità, indipendentemente da altri effetti.
Roland

1
Spiacente, non riesco a capire l'ultimo paragrafo. Ma ho anche frainteso il motivo per cui ho menzionato max (0, x) qui. In ogni caso, penso che il modo corretto di dimostrare che forse esiste una modalità multipla (minimo locale multiplo) è dimostrarlo in qualche modo. ps Se Hessian è indefinito, non ha detto nulla: la funzione quasiconvex può avere Hessian indefinita ma è ancora unimodale.
bruziuz,

17

Se permuti i neuroni nello strato nascosto e fai la stessa permutazione sui pesi degli strati adiacenti, la perdita non cambia. Quindi se esiste un minimo globale diverso da zero in funzione dei pesi, allora non può essere unico poiché la permutazione dei pesi fornisce un altro minimo. Quindi la funzione non è convessa.


5

Il fatto che la funzione obiettivo sia convessa o meno dipende dai dettagli della rete. Nel caso in cui esistano più minimi locali, ti chiedi se sono tutti equivalenti. In generale, la risposta è no, ma la possibilità di trovare un minimo locale con buone prestazioni di generalizzazione sembra aumentare con le dimensioni della rete.

Questo documento è di interesse:

Choromanska et al. (2015). Le superfici di perdita delle reti multistrato

http://arxiv.org/pdf/1412.0233v3.pdf

Dall'introduzione:

  • Per reti di grandi dimensioni, la maggior parte dei minimi locali sono equivalenti e producono prestazioni simili su un set di test.

  • La probabilità di trovare un minimo locale "cattivo" (valore elevato) è diversa da zero per le reti di piccole dimensioni e diminuisce rapidamente con le dimensioni della rete.

  • Lottare per trovare il minimo globale sul set di addestramento (al contrario di uno dei tanti buoni locali) non è utile nella pratica e può portare a un eccesso di adattamento.

Citano anche alcuni articoli che descrivono come i punti di sella siano un problema maggiore rispetto ai minimi locali durante l'addestramento di reti di grandi dimensioni.


4

Alcune risposte per i tuoi aggiornamenti:

  1. Sì, ci sono in genere multipli minimi locali. (Se ce n'era solo uno, si chiamerebbe il minimo globale.) I minimi locali non avranno necessariamente lo stesso valore. In generale, potrebbero non esserci minimi locali che condividono lo stesso valore.

  2. No, non è convesso a meno che non sia una rete a strato singolo. Nel caso generale a più livelli, i parametri dei livelli successivi (pesi e parametri di attivazione) possono essere funzioni altamente ricorsive dei parametri nei livelli precedenti. Generalmente, la moltiplicazione delle variabili di decisione introdotte da una struttura ricorsiva tende a distruggere la convessità. Un altro grande esempio di ciò sono i modelli MA (q) nell'analisi delle serie temporali.

Nota a margine: non so davvero cosa intendi permutando nodi e pesi. Se la funzione di attivazione varia tra i nodi, ad esempio, e se permetti i nodi, stai essenzialmente ottimizzando una diversa rete neurale. Cioè, mentre i minimi di questa rete permutata possono essere gli stessi minimi, questa non è la stessa rete, quindi non è possibile fare una dichiarazione sulla molteplicità degli stessi minimi. Per un'analogia di questo nel quadro dei minimi quadrati, si è ad esempio lo scambio di alcuni filari di e e dicendo che dal momento che il minimo diè lo stesso di prima che ci sono tanti minimizzatori quante sono le permutazioni.yXyXβ


1
La "rete a un livello" sarebbe esattamente l'aspetto di "softmax" o regressione logistica, giusto?
avocado,

Per "permutazione di nodi e pesi", intendo "scambio", ed è quello che ho ottenuto dalle precedenti 2 risposte precedenti, e quando ho capito le loro risposte, "scambiando" nodi e pesi in livelli nascosti , potremmo finire per avere il stesso risultato in teoria, ecco perché potremmo avere minimi multipli. Vuoi dire che questa spiegazione non è corretta?
avocado,

Hai l'idea giusta, ma non è esattamente la stessa. Per le reti, la perdita potrebbe non essere necessariamente una perdita binomiale, le funzioni di attivazione potrebbero non essere necessariamente sigmoidi, ecc.
Mustafa S Eisa,

Sì, non penso sia corretto. Anche se è vero che otterrai le stesse prestazioni se permetti questi termini o meno, ciò non definisce la convessità o la non convessità di alcun problema. Il problema di ottimizzazione è convesso se, per una funzione di perdita fissa (nessuna permutazione dei termini nella perdita), la funzione obiettivo è convessa nei parametri del modello e la regione fattibile su cui si sta ottimizzando è convessa e chiusa.
Mustafa S Eisa,

Vedo, quindi se si tratta di "uno strato", potrebbe non essere "softmax".
avocado,

2

Avrai un minimo globale se il problema è convesso o quasiconvex.

Informazioni sui "blocchi" convessi durante la costruzione di reti neurali (versione di Informatica)

Penso che ce ne siano molti che possono essere menzionati:

  1. max (0, x) - convesso e crescente

  2. log-sum-exp - convesso e crescente in ciascun parametro

  3. y = Ax è affine e quindi convesso in (A), forse aumentando forse diminuendo. y = Ax è affine e quindi convesso in (x), forse aumentando forse diminuendo.

Sfortunatamente non è convesso in (A, x) perché sembra una forma quadratica indefinita.

  1. Convoluzione discreta matematica usuale (per "solito" intendo definita con segnale ripetuto) Y = h * X Sembra che sia una funzione affine di h o della variabile X. Quindi è convessa nella variabile h o nella variabile X. Informazioni su entrambe le variabili - Non la penso così perché quando h e X sono scalari la convoluzione si riduce a forma quadratica indefinita.

  2. max (f, g) - se f e g sono convessi, anche max (f, g) è convesso.

Se si sostituisce una funzione in un'altra e si creano composizioni, si deve rimanere nella stanza convessa per y = h (g (x), q (x)), ma h dovrebbe essere convesso e dovrebbe aumentare (non diminuire) in ogni argomento. ...

Perché le reti neurali in non convesse:

  1. Penso che la convoluzione Y = h * X non sia necessariamente crescente in h. Quindi, se non si usano ipotesi extra sul kernel, si uscirà immediatamente dall'ottimizzazione convessa dopo aver applicato la convoluzione. Quindi non tutto va bene con la composizione .

  2. Anche la convoluzione e la moltiplicazione della matrice non sono convesse se si considerano i parametri di coppia come menzionato sopra. Quindi c'è un problema con la moltiplicazione della matrice: si tratta di un'operazione non convessa nei parametri (A, x)

  3. y = Ax può essere quasiconvex in (A, x) ma si dovrebbero prendere in considerazione anche ipotesi extra.

Per favore fatemi sapere se non siete d'accordo o avete qualche considerazione in più. La domanda è anche molto interessante per me.

ps max-pooling - che è downsamping con la selezione di max sembra una modifica delle operazioni max elementwise con precomposizione affine (per tirare i blocchi necessari) e sembra convesso per me.

A proposito di altre domande

  1. No, la regressione logistica non è convessa o concava, ma è log-concava. Ciò significa che dopo l'applicazione del logaritmo avrai una funzione concava nelle variabili esplicative. Quindi qui il trucco della massima verosimiglianza è fantastico.

  2. Se non ci sono solo un minimo globale. Non si può dire nulla sulla relazione tra i minimi locali. O almeno non puoi usare l'ottimizzazione convessa e le sue estensioni per questo, perché quest'area della matematica è profondamente basata sul sottostimatore globale.

Forse hai confusione su questo. Perché davvero le persone che creano tali schemi fanno semplicemente "qualcosa" e ricevono "qualcosa". Sfortunatamente perché non abbiamo un meccanismo perfetto per affrontare l'ottimizzazione non convessa (in generale).

Ma ci sono cose ancora più semplici accanto a Neural Networks - che non possono essere risolte come i minimi quadrati non lineari - https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.