Definizione e origine di "cross entropia"


15

Senza citare fonti, Wikipedia definisce il cross-entropia di distribuzioni discrete e siaPQ

H×(P;Q)=-ΣXp(X)logq(X).

Chi è stato il primo a iniziare a utilizzare questa quantità? E chi ha inventato questo termine? Ho guardato dentro:

JE Shore e RW Johnson, "Derivazione assiomatica del principio della massima entropia e del principio della minima entropia incrociata", Teoria dell'informazione, Transazioni IEEE su, vol. 26, n. 1, pagg. 26-37, gennaio 1980.

Ho seguito la loro introduzione a

A. Wehrl, "Proprietà generali dell'entropia", Recensioni di fisica moderna, vol. 50, n. 2, pagg. 221-260, aprile 1978.

chi non usa mai il termine.

Nemmeno

S. Kullback e R. Leibler, "Informazioni e sufficienza", The Annals of Mathematical Statistics, vol. 22, n. 1, pagg. 79-86, 1951.

Ho guardato dentro

TM Cover e JA Thomas, Elements of Information Theory (Wiley Series in Telecommunications and Signal Processing). Wiley-Interscience, 2006.

e

I. Buono, "Entropia massima per la formulazione di ipotesi, in particolare per le tabelle di contingenza multidimensionali", The Annals of Mathematical Statistics, vol. 34, n. 3, pagg. 911-934, 1963.

ma entrambi gli articoli definiscono l'entropia incrociata come sinonimo di divergenza KL.

La carta originale

CE Shannon, "Una teoria matematica della comunicazione", rivista tecnica del sistema Bell, vol. 27, 1948.

Non menziona l'entropia incrociata (e ha una strana definizione di "entropia relativa": "Il rapporto tra l'entropia di una fonte e il valore massimo che potrebbe avere pur restando limitato agli stessi simboli").

Alla fine, ho guardato alcuni vecchi libri e documenti di Tribus.

Qualcuno sa come si chiama l'equazione sopra e chi l'ha inventata o ne ha una bella presentazione?

Risposte:


7

io1:2(E)2.2-2.4

MODIFICARE:

Alias ​​aggiuntivi includono la misura di informazione di Kullback-Leibler, la misura di informazione relativa, l'entropia incrociata, la divergenza di I e l' imprecisione di Kerridge .


Grazie! Ho controllato quei riferimenti, ma ho ancora problemi a trovare il termine "entropia incrociata" o un'equazione corrispondente. Per favore fatemi sapere se ne avete visto uno in uno degli articoli o dei libri.
Neil G,

1
Puoi anche cercare all'indietro nello studioso di Google articoli con diversi alias pubblicati fino a un determinato anno (ad esempio, cross-entropia fino al 1980 ).
Itamar,

1
Per quanto riguarda la tua recente modifica, sono interessato alla cronologia del modulo fornito nella mia domanda. Ho già notato che i primi articoli stavano usando "cross entropia" per significare "divergenza KL". (Nota che l'articolo di Kullback è nella mia domanda.)
Neil G

Scusa, mi sono perso il documento Kullback nella domanda
Itamar,

4

Grazie al suggerimento di @ Itamar, ho trovato una menzione in:

IJ Bene, "Qualche terminologia e notazione nella teoria dell'informazione", Atti dell'IEA - Parte C: Monografie, vol. 103, n. 3, pagg. 200-204, marzo 1956.

Sarebbe comunque utile per me trovare una bella presentazione dell'entropia incrociata.


2

Grazie per questo - buon riassunto della letteratura di base. L'articolo di Shore and Johnson del 1980 su IEEE è un buon inizio, ma il puntatore di @ itamar alla monografia Good del 1956 è ancora migliore. Il concetto sembra derivare dal lavoro di Shannon, con la nota AMS del 1951 di Kullback & Leibler che è l'origine dell'uso corrente del termine. Per quanto riguarda l'origine del termine "cross entropia" si riferisce alle reti neurali artificiali, esiste un termine usato in un articolo su Science, presentato nel 1994, pubblicato nel 1995, da GE Hinton, P. Dayan, BJ Frey e RM Neal, in che è un uso precoce del termine "Hemholtz Machine" - forse il primo. Url per copia: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf In quel documento, "L'algoritmo Wake-sleep per reti neurali non supervisionate", la nota prima dell'equazione n. 5 dice: "Quando ci sono molti modi alternativi per descrivere un vettore di input è possibile progettare uno schema di codifica stocastica che sfrutta il vantaggio entropia attraverso descrizioni alternative [1]. Il costo è quindi: "(vedi documento per eqn # 5)" Il secondo termine è quindi l'entropia della distribuzione che i pesi di riconoscimento assegnano alle varie rappresentazioni alternative. " Più avanti nel documento, eqn # 5 viene riscritto come eqn # 8, con l'ultimo termine descritto come la divergenza di Kullback-Leibler tra la distribuzione di probabilità iniziale e la distribuzione di probabilità posteriore. L'articolo afferma: "Quindi per due modelli generativi che assegnano uguale probabilità a d, ) Questo documento descrive ancora il processo di minimizzazione per questo algoritmo specifico come minimizzare la divergenza di Kullback-Leibler, ma sembra che potrebbe essere dove il termine "entropia attraverso descrizioni alternative" è stato abbreviato in "cross entropia". Per un esempio numerico di entropia crociata, usando TensorFlow, vedi la pubblicazione qui, è utile: ) Questo documento descrive ancora il processo di minimizzazione per questo algoritmo specifico come minimizzare la divergenza di Kullback-Leibler, ma sembra che potrebbe essere dove il termine "entropia attraverso descrizioni alternative" è stato abbreviato in "cross entropia". Per un esempio numerico di entropia crociata, usando TensorFlow, vedi la pubblicazione qui, è utile: /programming/41990250/what-is-cross-entropy Nota che la soluzione di CE = 0.47965 è derivata semplicemente prendendo il log naturale della probabilità .619. Nell'esempio sopra, l'uso della codifica "uno a caldo" significa che le altre due probabilità iniziale e posteriore vengono ignorate a causa della moltiplicazione per probabilità iniziale a valore zero, nella somma dell'entropia crociata.


+1 Potrebbe essere giusto. Quindi, stai dicendo che il 1994 è l'origine della moderna definizione di entropia incrociata?
Neil G
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.