Il codice Huffman per una distribuzione di probabilità è il prefisso con la lunghezza media ponderata minima della parola chiave , dove è la lunghezza della parola in codice. È un noto teorema che la lunghezza media per simbolo del codice Huffman è compresa tra e , dove è l'entropia di Shannon della distribuzione di probabilità.
Il cattivo esempio canonico, in cui la lunghezza media supera l'entropia di Shannon di quasi 1, è una distribuzione di probabilità come , in cui l'entropia è quasi 0 e la lunghezza media della parola in codice è 1. Ciò crea un gap tra l'entropia e la lunghezza della parola in codice di quasi .
Ma cosa succede quando c'è un limite alla maggiore probabilità nella distribuzione della probabilità? Supponiamo, ad esempio, che tutte le probabilità siano inferiori a . Il divario più grande che ho trovato in questo caso è per una distribuzione di probabilità come, in cui l'entropia è leggermente superiore a 1 e la lunghezza media dellaparolachiaveè leggermente inferiore a 1,5, dando un gap in avvicinamento. Questo è il meglio che sai fare? Puoi dare un limite superiore al divario che è rigorosamente inferiore a 1 per questo caso?
Consideriamo ora il caso in cui tutte le probabilità sono molto piccole. Supponiamo di scegliere una distribuzione di probabilità su lettere, ciascuno con probabilità . In questo caso, il divario maggiore si verifica se si sceglie . Qui, si ottiene un gap di circa
Questa domanda è stata ispirata da questa domanda TCS Stackexchange .