Per codificare un evento che si verifica con probabilità sono necessari almeno i log 2 ( 1 / p ) bit (perché? Vedere la mia risposta su "Qual è il ruolo del logaritmo nell'entropia di Shannon?" ).plog2(1/p)
Quindi nella codifica ottimale la lunghezza media del messaggio codificato è
cioè l'entropiadiShannondella distribuzione di probabilità originale.
∑ipilog2(1pi),
Tuttavia, se per la distribuzione di probabilità si utilizza una codifica ottimale per una diversa distribuzione di probabilità Q , la lunghezza media del messaggio codificato è
∑ i p i code_length ( i ) = ∑ i p i log 2 ( 1PQ
èentropia incrociata, che è maggiore di∑ipilog2(1
∑ipicode_length(i)=∑ipilog2(1qi),
.
∑ipilog2(1pi)
Ad esempio, considera l'alfabeto di quattro lettere (A, B, C, D), ma con A e B che hanno la stessa frequenza e C e D non compaiono affatto. Quindi la probabilità è .P=(12,12,0,0)
Quindi, se vogliamo codificarlo in modo ottimale, codifichiamo A come 0 e B come 1, quindi otteniamo un bit di messaggio codificato per una lettera. (Ed è esattamente l'entropia di Shannon della nostra distribuzione di probabilità.)
Ma se abbiamo la stessa probabilità , ma la codifichiamo in base alla distribuzione dove tutte le lettere sono ugualmente probabilmente Q = ( 1PQ=(14,14,14,14)