Perché l'errore quadratico medio è l'entropia incrociata tra la distribuzione empirica e un modello gaussiano?


28

Nel 5.5, Deep Learning (di Ian Goodfellow, Yoshua Bengio e Aaron Courville), lo afferma

Qualsiasi perdita consistente in una probabilità logaritmica negativa è una entropia incrociata tra la distribuzione empirica definita dal set di addestramento e la distribuzione di probabilità definita dal modello. Ad esempio, l'errore quadratico medio è l'entropia incrociata tra la distribuzione empirica e un modello gaussiano.

Non riesco a capire perché siano equivalenti e gli autori non si espandono sul punto.

Risposte:


32

Lascia che i dati siano . Scrivi per la distribuzione empirica. Per definizione, per qualsiasi funzione ,x=(x1,,xn)F(x)f

EF(x)[f(X)]=1ni=1nf(xi).

Lascia che il modello abbia densità dove è definito sul supporto del modello. L' entropia incrociata di e è definita comeMef(x)fF(x)M

(1)H(F(x),M)=EF(x)[log(ef(X)]=EF(x)[f(X)]=1ni=1nf(xi).

Supponendo che x sia un semplice campione casuale, la sua probabilità di log negativa è

(2)log(L(x))=logi=1nef(xi)=i=1nf(xi)

in virtù delle proprietà dei logaritmi (convertono i prodotti in somme). L'espressione è un'espressione n volte costante ( 1 ) . Poiché le funzioni di perdita vengono utilizzate nelle statistiche solo confrontandole, non fa differenza che una sia una (positiva) volte l'altra. È in questo senso che la verosimiglianza negativa "è una" entropia incrociata nella citazione.(2)n(1)


Ci vuole un po 'più di immaginazione per giustificare la seconda affermazione della citazione. La connessione con errore al quadrato è chiara, perché per un "modello gaussiano" che prevede i valori nei punti x , il valore di f in uno di questi punti èp(x)xf

f(x;p,σ)=12(log(2πσ2)+(xp(x))2σ2),

che è l'errore al quadrato ma riscalato di 1 / ( 2 σ 2 ) e spostato da una funzione di σ . Un modo per rendere corretta la quotazione è assumere che non consideri σ parte del "modello" - σ deve essere determinato in qualche modo indipendentemente dai dati. In tal caso, le differenze tra gli errori al quadrato medio sono proporzionali alle differenze tra entropie incrociate o probabilità di log, rendendo così tutti e tre equivalenti ai fini del fitting del modello.(xp(x))2 1/(2σ2)σσσ

(Di solito, però, è adatto come parte del processo di modellazione, nel qual caso la citazione non sarebbe del tutto corretta.)σ=σ(x)


1
+1 con due suggerimenti: potrebbe usare invece di f ( ) per evitare confusione con F ( ) . Il secondo è che la maggior parte delle stime di σ 2 saranno k n i = 1 ( x i - p ( x i ) ) 2 . Quando lo colleghi e lo aggiungi ottieni - 1g()f()F()σ2ki=1n(xip(xi))2. Simile a AIC-tipo formula ...12log[i=1n(xip(xi))2]+h(k)
probabilityislogic

@probabilityislogic scelgo la coppia e F , perché non rappresentano le quantità strettamente correlati. Ff
whuber

Ciao, penso che questo sia applicato solo alla distribuzione lineare. In problemi di distribuzione non lineare, penso che possiamo ancora usare MSE come funzione di costo, giusto?
Lion Lai,

5

Per i lettori del libro di Deep Learning, vorrei aggiungere all'eccellente risposta accettata che gli autori spiegano dettagliatamente la loro dichiarazione nella sezione 5.5.1, vale a dire l' Esempio: regressione lineare come massima verosimiglianza .

Lì, elencano esattamente il vincolo menzionato nella risposta accettata:

p(y|x)=N(y;y^(x;w),σ2)y^(x;w)σ2

p(y|x)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.