Possiamo usare MLE per stimare i pesi della rete neurale?


23

Ho appena iniziato a studiare cose su statistiche e modelli. Attualmente, la mia comprensione è che usiamo MLE per stimare i parametri migliori per un modello. Tuttavia, quando provo a capire come funzionano le reti neurali, sembra invece che comunemente utilizzino un altro approccio per stimare i parametri. Perché non utilizziamo MLE o è possibile utilizzare MLE?

Risposte:


16

Sono certamente possibili stime MLE dei pesi delle reti neurali artificiali (ANN) ; anzi, è del tutto tipico. Per i problemi di classificazione, una funzione obiettivo standard è l'entropia incrociata, che è la stessa della probabilità logaritmica negativa di un modello binomiale. Per problemi di regressione, viene utilizzato l'errore quadrato residuo, che è parallelo alla regressione MLE di OLS.

Ma ci sono alcuni problemi nel ritenere che le belle proprietà degli MLE derivate dalle statistiche classiche valgano anche per gli MLE delle reti neurali.

  1. Esiste un problema generale con la stima della RNA: esistono molte soluzioni simmetriche anche per le RNA a strato singolo. Invertire i segni dei pesi per il livello nascosto e invertire i segni dei parametri di attivazione del livello nascosto hanno entrambe le stesse probabilità. Inoltre, è possibile permutare qualsiasi nodo nascosto e anche queste permutazioni hanno la stessa probabilità. Ciò è consequenziale in quanto devi riconoscere che stai rinunciando all'identificabilità. Tuttavia, se l'identificabilità non è importante, puoi semplicemente accettare che queste soluzioni alternative sono solo riflessioni e / o permutazioni reciproche.

    Ciò è in contrasto con gli usi classici di MLE nelle statistiche, come una regressione OLS: il problema OLS è convesso e strettamente convesso quando la matrice di progettazione è al livello massimo. La convessità forte implica che esiste un unico minimizzatore unico.

  2. Le RNA tenderanno a sovrautilizzare i dati quando si utilizza una soluzione non vincolata. I pesi tenderanno ad allontanarsi dall'origine verso valori implausibilmente grandi che non si generalizzano bene o prevedono nuovi dati con molta precisione. L'imposizione della riduzione del peso o di altri metodi di regolarizzazione ha l'effetto di ridurre le stime del peso verso lo zero. Questo non risolve necessariamente il problema di indeterminazione da (1), ma può migliorare la generalizzazione della rete.

  3. La funzione di perdita non è convessa e l'ottimizzazione può trovare soluzioni localmente ottimali che non sono globalmente ottimali. O forse queste soluzioni sono punti di sella, in cui alcuni metodi di ottimizzazione si bloccano. I risultati in questo documento scoprono che i moderni metodi di stima eludono questo problema.

  4. In un contesto statistico classico, metodi di adattamento penalizzati come la rete elastica, la regolarizzazione o possono rendere convesso un problema di grado (cioè non convesso). Questo fatto non si estende all'impostazione della rete neurale, a causa del problema di permutazione in (1). Anche se si limita la norma dei parametri, la permutazione dei pesi o l'inversione simmetrica dei segni non modifica la norma del vettore dei parametri; né cambierà la probabilità. Pertanto la perdita rimarrà la stessa per i modelli permutati o riflessi e il modello non è ancora identificato.L1L2


2
Mi permetto di dissentire da quello che dici. I diversi minimi locali derivanti dalle simmetrie sono tutti della stessa qualità, quindi non devi preoccupartene affatto. Quello che probabilmente vorrai dire è che le ANN non hanno funzioni di perdita convessa, il che rende maggiormente coinvolta l'ottimizzazione e non garantisce la ricerca di un ottimale globale. Tuttavia, recentemente ci sono state alcune prove del fatto che le RNA in realtà non hanno molte questioni relative ai minimi locali, ma piuttosto problemi di sella. Vedi ad esempio arxiv.org/abs/1412.6544 .
Bayerj,

11

Nei problemi di classificazione, massimizzare la probabilità è il modo più comune di formare una rete neurale (sia modelli supervisionati che non supervisionati).

In pratica, di solito minimizziamo la probabilità di log negativa (MLE equivalente). L'unico vincolo per utilizzare la probabilità logaritmica negativa è avere un livello di output che può essere interpretato come una distribuzione di probabilità. A tale scopo viene comunemente utilizzato un layer di output softmax. Si noti che nella comunità delle reti neurali, la probabilità logaritmica negativa viene talvolta definita entropia incrociata. Naturalmente è possibile aggiungere termini di regolarizzazione (e talvolta possono essere interpretati come distribuzioni precedenti sui parametri, in tal caso stiamo cercando il massimo a posteriori ( MAP )).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.