Senza citare fonti, Wikipedia definisce il cross-entropia di distribuzioni discrete e sia
Chi è stato il primo a iniziare a utilizzare questa quantità? E chi ha inventato questo termine? Ho guardato dentro:
JE Shore e RW Johnson, "Derivazione assiomatica del principio della massima entropia e del principio della minima entropia incrociata", Teoria dell'informazione, Transazioni IEEE su, vol. 26, n. 1, pagg. 26-37, gennaio 1980.
Ho seguito la loro introduzione a
A. Wehrl, "Proprietà generali dell'entropia", Recensioni di fisica moderna, vol. 50, n. 2, pagg. 221-260, aprile 1978.
chi non usa mai il termine.
Nemmeno
S. Kullback e R. Leibler, "Informazioni e sufficienza", The Annals of Mathematical Statistics, vol. 22, n. 1, pagg. 79-86, 1951.
Ho guardato dentro
TM Cover e JA Thomas, Elements of Information Theory (Wiley Series in Telecommunications and Signal Processing). Wiley-Interscience, 2006.
e
I. Buono, "Entropia massima per la formulazione di ipotesi, in particolare per le tabelle di contingenza multidimensionali", The Annals of Mathematical Statistics, vol. 34, n. 3, pagg. 911-934, 1963.
ma entrambi gli articoli definiscono l'entropia incrociata come sinonimo di divergenza KL.
La carta originale
CE Shannon, "Una teoria matematica della comunicazione", rivista tecnica del sistema Bell, vol. 27, 1948.
Non menziona l'entropia incrociata (e ha una strana definizione di "entropia relativa": "Il rapporto tra l'entropia di una fonte e il valore massimo che potrebbe avere pur restando limitato agli stessi simboli").
Alla fine, ho guardato alcuni vecchi libri e documenti di Tribus.
Qualcuno sa come si chiama l'equazione sopra e chi l'ha inventata o ne ha una bella presentazione?