L'errore quadratico medio è sempre convesso nel contesto delle reti neurali?


9

Risorse multiple che ho citato per menzionare che MSE è eccezionale perché è convesso. Ma non capisco come, specialmente nel contesto delle reti neurali.

Diciamo che abbiamo il seguente:

  • X : set di dati di allenamento
  • Y : obiettivi
  • Θ : l'insieme dei parametri del modellofΘ (un modello di rete neurale con non linearità)

Poi:

MSE(Θ)=(fΘ(X)Y)2

Perché questa funzione di perdita dovrebbe essere sempre convessa? Dipende da fΘ(X) ?

Risposte:


1

Risposta in breve: MSE è convesso sul suo input e sui parametri da solo. Ma su una rete neurale arbitraria non è sempre convessa a causa della presenza di non linearità sotto forma di funzioni di attivazione. La fonte della mia risposta è qui .


1

Convessità

f(x)xΧx1Χx2Χ0λ1

f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2).

Si può dimostrare che tale convessa ha un minimo globale. Un minimo globale unico elimina le trappole create da minimi locali che possono verificarsi in algoritmi che tentano di raggiungere la convergenza su un minimo globale, come la minimizzazione di una funzione di errore.f(x)

Sebbene una funzione di errore possa essere affidabile al 100% in tutti i contesti lineari continui e in molti contesti non lineari, ciò non significa la convergenza su un minimo globale per tutti i possibili contesti non lineari.

Errore quadratico medio

Data una funzione descrive il comportamento ideale del sistema e un modello del sistema (dove è il vettore dei parametri, matrice, cubo o ipercubo e ), creato razionalmente o tramite convergenza (come nell'allenamento della rete neurale), la funzione di errore quadrato medio (MSE) può essere rappresentata come segue.s(x)a(x,p)p1nN

e(β):=N1n[a(xn)s(xn)]2

Il materiale che stai leggendo probabilmente non sostiene che o siano convessi rispetto a , ma che sia convesso rispetto a e non importa cosa siano. Questa affermazione può essere provata in seguito per qualsiasi continua e . a(x,p)s(x)xe(β)a(x,p)s(x)a(x,p)s(x)

Confondere l'algoritmo di convergenza

Se la domanda è se un e un metodo specifici per ottenere una che approssima all'interno di un ragionevole margine di convergenza MSE possono essere confusi, la risposta è "Sì". Questo è il motivo per cui MSE non è l'unico modello di errore.a(x,p)s(x)a(x,p)

Sommario

Il modo migliore per riassumere è che dovrebbe essere definito o scelto da una serie di modelli di errore convesso di magazzino basati sulle seguenti conoscenze.e(β)

  • Proprietà note del sistemas(x)
  • La definizione del modello di approssimazionea(x,p)
  • Il tensore utilizzato per generare lo stato successivo nella sequenza convergente

L'insieme dei modelli di errore convesso di serie include certamente il modello MSE per la sua semplicità e parsimonia computazionale.


Quindi la risposta breve è MSE wrt Theta è sempre convessa. Sebbene Feedforard (X, Theta) quale potrebbe non essere convesso?
user74211

Bene, @ user74211, quel commento in realtà non risponde alla domanda. La domanda specificamente posta come significa che l'errore quadratico può essere sempre convesso se la funzione a cui si applica non lo è. Il tuo commento è un sottoinsieme delle affermazioni nella domanda, senza la spiegazione richiesta.
FauChristian,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.