Qualitivamente cos'è l'entropia incrociata

Questa domanda fornisce una definizione quantitativa dell'entropia crociata, in termini di formula.

Sto cercando una definizione più nozionale, Wikipedia dice:

Nella teoria dell'informazione, l'entropia incrociata tra due distribuzioni di probabilità misura il numero medio di bit necessari per identificare un evento da un insieme di possibilità, se uno schema di codifica viene utilizzato in base a una data distribuzione di probabilità q, piuttosto che alla distribuzione "vera" p .

Ho enfatizzato la parte che mi sta dando problemi nel capire questo. Vorrei una bella definizione che non richiede una comprensione separata (preesistente) di Entropy.

entropy information-theory

— Lyndon White
fonte

Si sta chiedendo una definizione di croce -entropy che, allo stesso tempo, definirà l'entropia stessa. E intuitivamente così ... Se hai problemi a comprendere il concetto di Entropia stesso, sarebbe una buona idea prima capire il concetto di base e poi una qualsiasi delle sue estensioni.

— Alecos Papadopoulos,

Personalmente ho avuto una conoscenza di base di Entropy (anche se sono passati quasi 12 mesi da quando l'ho applicato). Ma un'espressione quantitativa di Entropia, dovrebbe rientrare in un breve paragrafo, e l'entropia incrociata dovrebbe prenderne solo un'altra. Quindi penso che una buona risposta possa includere entrambi, in modo che il lettore non debba fare riferimento altrove per capirlo.

— Lyndon White,

Vedere i post correlati: stats.stackexchange.com/questions/66186/… e stats.stackexchange.com/questions/188903/…

— kjetil b halvorsen

Per codificare un evento che si verifica con probabilità sono necessari almeno i bit (perché? Vedere la mia risposta su "Qual è il ruolo del logaritmo nell'entropia di Shannon?" ). $p$ $\log_2(1/p)$

Quindi nella codifica ottimale la lunghezza media del messaggio codificato è cioè l'entropiadiShannondella distribuzione di probabilità originale.

\sum_{i} p_{i} \log_{2} (\frac{1}{p_{i}}),

$\sum_i p_i \log_2(\tfrac{1}{p_i}),$

Tuttavia, se per la distribuzione di probabilità si utilizza una codifica ottimale per una diversa distribuzione di probabilità , la lunghezza media del messaggio codificato è $P$ $Q$ èentropia incrociata, che è maggiore di

\sum_{i} p_{i} code_length(i) = \sum_{i} p_{i} \log_{2} (\frac{1}{q_{i}}),

$\sum_i p_i \text{code_length($i$)} = \sum_i p_i \log_2(\tfrac{1}{q_i}),$

\sum_{i} p_{i} \log_{2} (\frac{1}{p_{i}})

$\sum_i p_i \log_2(\tfrac{1}{p_i})$

Ad esempio, considera l'alfabeto di quattro lettere (A, B, C, D), ma con A e B che hanno la stessa frequenza e C e D non compaiono affatto. Quindi la probabilità è . $P=(\tfrac{1}{2}, \tfrac{1}{2}, 0, 0)$

Quindi, se vogliamo codificarlo in modo ottimale, codifichiamo A come 0 e B come 1, quindi otteniamo un bit di messaggio codificato per una lettera. (Ed è esattamente l'entropia di Shannon della nostra distribuzione di probabilità.)

Ma se abbiamo la stessa probabilità , ma la codifichiamo in base alla distribuzione dove tutte le lettere sono ugualmente probabilmente $P$ $Q=(\tfrac{1}{4},\tfrac{1}{4},\tfrac{1}{4},\tfrac{1}{4})$

— Piotr Migdal
fonte

Bella spiegazione, grazie. Tuttavia, la definizione di Wikipedia è sum_i [p_i * log (q_i)]. L'uso di 1 / q_i fornisce il numero di stati possibili, quindi log_2 lo converte nel numero di bit necessari per codificare un singolo simbolo, ma la pagina di Wikipedia descrive qualcosa di leggermente diverso.

— redcalx,

@locster In Wikipedia ha il segno meno prima della somma, che equivale ad avere

1 / q_{i}

$1/q_i$ , come

\log (1 / q_{i}) = - \log (q_{i})

$\log(1/q_i)=-\log(q_i)$ .

— Piotr Migdal,