Euristicamente, la funzione di densità di probabilità su con entropia massima risulta essere quella che corrisponde alla minima quantità di conoscenza di , in altre parole la distribuzione Uniform.{x1,x2,..,.xn}{x1,x2,..,.xn}
Ora, per una prova più formale, considerare quanto segue:
Una funzione di densità di probabilità su è un insieme di numeri reali non negativi che si sommano a 1. L'entropia è una funzione continua delle -tuple e questi punti si trovano in un sottoinsieme compatto di , quindi esiste una -tupla in cui l'entropia è massimizzata. Vogliamo mostrare che ciò si verifica in e in nessun altro luogo.{x1,x2,..,.xn}p1,...,pnn(p1,...,pn)Rnn(1/n,...,1/n)
Supponiamo che i non siano tutti uguali, ad esempio . (Chiaramente ). Troveremo una nuova densità di probabilità con entropia più elevata. Segue quindi, poiché l'entropia è massimizzata in alcune -tuple, l'entropia è massimizzata in modo univoco nella -tupla con per tutti .pjp1<p2n≠1nnpi=1/ni
Dato che , per i piccoli positivi abbiamo . L'entropia di meno l'entropia di ugualep1<p2εp1+ε<p2−ε{p1+ε,p2−ε,p3,...,pn}{p1,p2,p3,...,pn}
−p1log(p1+εp1)−εlog(p1+ε)−p2log(p2−εp2)+εlog(p2−ε)
Per completare la dimostrazione, vogliamo mostrare che questo è positivo per abbastanza piccolo . Riscrivi l'equazione sopra come
ε−p1log(1+εp1)−ε(logp1+log(1+εp1))−p2log(1−εp2)+ε(logp2+log(1−εp2))
Ricordando che per piccola , l'equazione sopra è
che è positivo quando è abbastanza piccolo da .log(1+x)=x+O(x2)x
−ε−εlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1)+O(ε2)
εp1<p2
Una prova meno rigorosa è la seguente:
Considera innanzitutto il seguente Lemma:
Let e essere funzioni di densità di probabilità continue su un intervallo
i numeri reali, con e su . Abbiamo
se esistono entrambi gli integrali. Inoltre, esiste uguaglianza se e solo se per tutti .p(x)q(x)Ip≥0q>0I
−∫Iplogpdx≤−∫Iplogqdx
p(x)=q(x)x
Ora, sia qualsiasi funzione di densità di probabilità su , con . Lasciare per tutti ,
che è l'entropia di . Pertanto il nostro Lemma dice , con uguaglianza se e solo se è uniforme.p{x1,...,xn}pi=p(xi)qi=1/ni
−∑i=1npilogqi=∑i=1npilogn=logn
qh(p)≤h(q)p
Inoltre, Wikipedia ha una breve discussione anche su questo: wiki