Lascia che i dati siano . Scrivi per la distribuzione empirica. Per definizione, per qualsiasi funzione ,x=(x1,…,xn)F(x)f
EF(x)[f(X)]=1n∑i=1nf(xi).
Lascia che il modello abbia densità dove è definito sul supporto del modello. L' entropia incrociata di e è definita comeMef(x)fF(x)M
H(F(x),M)=−EF(x)[log(ef(X)]=−EF(x)[f(X)]=−1n∑i=1nf(xi).(1)
Supponendo che x sia un semplice campione casuale, la sua probabilità di log negativa è
−log(L(x))=−log∏i=1nef(xi)=−∑i=1nf(xi)(2)
in virtù delle proprietà dei logaritmi (convertono i prodotti in somme). L'espressione è un'espressione n volte costante ( 1 ) . Poiché le funzioni di perdita vengono utilizzate nelle statistiche solo confrontandole, non fa differenza che una sia una (positiva) volte l'altra. È in questo senso che la verosimiglianza negativa "è una" entropia incrociata nella citazione.(2)n(1)
Ci vuole un po 'più di immaginazione per giustificare la seconda affermazione della citazione. La connessione con errore al quadrato è chiara, perché per un "modello gaussiano" che prevede i valori nei punti x , il valore di f in uno di questi punti èp(x)xf
f(x;p,σ)=−12(log(2πσ2)+(x−p(x))2σ2),
che è l'errore al quadrato ma riscalato di 1 / ( 2 σ 2 ) e spostato da una funzione di σ . Un modo per rendere corretta la quotazione è assumere che non consideri σ parte del "modello" - σ deve essere determinato in qualche modo indipendentemente dai dati. In tal caso, le differenze tra gli errori al quadrato medio sono proporzionali alle differenze tra entropie incrociate o probabilità di log, rendendo così tutti e tre equivalenti ai fini del fitting del modello.(x−p(x))2 1/(2σ2)σσσ
(Di solito, però, è adatto come parte del processo di modellazione, nel qual caso la citazione non sarebbe del tutto corretta.)σ=σ(x)