Perché l'entropia è massimizzata quando la distribuzione di probabilità è uniforme?


32

So che l'entropia è la misura della casualità di un processo / variabile e può essere definita come segue. per una variabile casuale set : - . Nel libro su Entropy and Information Theory di MacKay, fornisce questa affermazione in Ch2XAH(X)=xiAp(xi)log(p(xi))

L'entropia è massimizzata se p è uniforme.

Intuitivamente, sono in grado di capirlo, come se tutti i punti dati nell'insieme fossero scelti con uguale probabilità ( m essendo cardinalità dell'insieme A ), quindi la casualità o l'entropia aumentano. Ma se sappiamo che alcuni punti nel set A si verificheranno con più probabilità di altri (diciamo nel caso della distribuzione normale, dove la massima concentrazione di punti dati è attorno alla media e alla piccola area di deviazione standard attorno ad esso, quindi la casualità o l'entropia dovrebbe diminuire.A1/mmAA

Ma c'è qualche prova matematica per questo? Come l'equazione per H(X) differenzia rispetto a p(x) e la imposto su 0 o qualcosa del genere.

In una nota a margine, c'è qualche connessione tra l'entropia che si verifica la teoria dell'informazione e i calcoli dell'entropia in chimica (termodinamica)?


2
Questa domanda riceve una risposta (di passaggio) all'indirizzo stats.stackexchange.com/a/49174/919 .
whuber

Mi sto confondendo abbastanza con un'altra affermazione data nel libro dei Vescovi di Christopher che afferma che "per una singola variabile reale, la distribuzione che massimizza l'entropia è il gaussiano". Afferma inoltre che "la distribuzione multivariata con entropia massima, per una data covarianza, è un gaussiano". Come è valida questa affermazione? L'entropia della distribuzione uniforme non è sempre il massimo?
user76170,

6
La massimizzazione viene sempre eseguita in base a vincoli sulla possibile soluzione. Quando i vincoli sono che tutta la probabilità deve svanire oltre i limiti predefiniti, la soluzione di entropia massima è uniforme. Quando invece i vincoli sono che l'aspettativa e la varianza devono essere uguali ai valori predefiniti, la soluzione ME è gaussiana. Le dichiarazioni che citate devono essere state fatte in contesti particolari in cui questi vincoli sono stati dichiarati o almeno implicitamente compresi.
whuber

2
Probabilmente dovrei anche menzionare che la parola "entropia" significa qualcosa di diverso nell'ambiente gaussiano rispetto a quanto non faccia qui nella domanda originale, poiché allora discuteremo di entropia di distribuzioni continue . Questa "entropia differenziale" è un animale diverso dall'entropia di distribuzioni discrete. La differenza principale è che l'entropia differenziale non è invariante a causa di un cambiamento di variabili.
whuber

Quindi, ciò significa che la massimizzazione è sempre rispetto ai vincoli? Cosa succede se non ci sono vincoli? Voglio dire, non può esserci una domanda come questa? Quale distribuzione di probabilità ha la massima entropia?
user76170,

Risposte:


25

Euristicamente, la funzione di densità di probabilità su con entropia massima risulta essere quella che corrisponde alla minima quantità di conoscenza di , in altre parole la distribuzione Uniform.{x1,x2,..,.xn}{x1,x2,..,.xn}

Ora, per una prova più formale, considerare quanto segue:

Una funzione di densità di probabilità su è un insieme di numeri reali non negativi che si sommano a 1. L'entropia è una funzione continua delle -tuple e questi punti si trovano in un sottoinsieme compatto di , quindi esiste una -tupla in cui l'entropia è massimizzata. Vogliamo mostrare che ciò si verifica in e in nessun altro luogo.{x1,x2,..,.xn}p1,...,pnn(p1,...,pn)Rnn(1/n,...,1/n)

Supponiamo che i non siano tutti uguali, ad esempio . (Chiaramente ). Troveremo una nuova densità di probabilità con entropia più elevata. Segue quindi, poiché l'entropia è massimizzata in alcune -tuple, l'entropia è massimizzata in modo univoco nella -tupla con per tutti .pjp1<p2n1nnpi=1/ni

Dato che , per i piccoli positivi abbiamo . L'entropia di meno l'entropia di ugualep1<p2εp1+ε<p2ε{p1+ε,p2ε,p3,...,pn}{p1,p2,p3,...,pn}

p1log(p1+εp1)εlog(p1+ε)p2log(p2εp2)+εlog(p2ε)
Per completare la dimostrazione, vogliamo mostrare che questo è positivo per abbastanza piccolo . Riscrivi l'equazione sopra come ε
p1log(1+εp1)ε(logp1+log(1+εp1))p2log(1εp2)+ε(logp2+log(1εp2))

Ricordando che per piccola , l'equazione sopra è che è positivo quando è abbastanza piccolo da .log(1+x)=x+O(x2)x

εεlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1)+O(ε2)
εp1<p2

Una prova meno rigorosa è la seguente:

Considera innanzitutto il seguente Lemma:

Let e essere funzioni di densità di probabilità continue su un intervallo i numeri reali, con e su . Abbiamo se esistono entrambi gli integrali. Inoltre, esiste uguaglianza se e solo se per tutti .p(x)q(x)Ip0q>0I

IplogpdxIplogqdx
p(x)=q(x)x

Ora, sia qualsiasi funzione di densità di probabilità su , con . Lasciare per tutti , che è l'entropia di . Pertanto il nostro Lemma dice , con uguaglianza se e solo se è uniforme.p{x1,...,xn}pi=p(xi)qi=1/ni

i=1npilogqi=i=1npilogn=logn
qh(p)h(q)p

Inoltre, Wikipedia ha una breve discussione anche su questo: wiki


11
Ammiro lo sforzo di presentare una prova elementare (senza calcolo). Una rigorosa dimostrazione di una riga è disponibile tramite la disuguaglianza ponderata AM-GM osservando che = con uguaglianza trattenuta se tutti sono uguali, QED. exp(H)(1pi)pipi1pi=n1/pi
whuber

Non capisco come possa essere uguale a . lognlogn
user1603472

4
@ user1603472 intendi ? È perchéi=1npilogn=logni=1npilogn=logni=1npi=logn×1
HBeel

@Roland Ho estratto il dalla somma poiché non dipende da . Quindi la somma è uguale a perché sono le densità di una funzione di massa di probabilità. logni1p1,,pn
HBeel,

La stessa spiegazione con maggiori dettagli può essere trovata qui: math.uconn.edu/~kconrad/blurbs/analysis/entropypost.pdf
Roland

14

L'entropia in fisica e teoria dell'informazione non è indipendente. Sono più diversi di quanto suggerisce il nome, eppure c'è chiaramente un legame tra. Lo scopo della metrica entropica è misurare la quantità di informazioni. Vedi la mia risposta con i grafici qui per mostrare come l'entropia cambia da distribuzione uniforme a gobba.

Il motivo per cui l'entropia è massimizzata per una distribuzione uniforme è perché è stato progettato così! Sì, stiamo costruendo una misura per la mancanza di informazioni, quindi vogliamo assegnare il suo valore più alto alla distribuzione meno informativa.

Esempio. Ti ho chiesto " Amico, dov'è la mia macchina ?" La tua risposta è "è da qualche parte negli Stati Uniti tra gli oceani Atlantico e Pacifico". Questo è un esempio di distribuzione uniforme. La mia macchina potrebbe essere ovunque negli Stati Uniti. Non ho ricevuto molte informazioni da questa risposta.

Tuttavia, se mi dicessi "Ho visto la tua macchina un'ora fa sulla Route 66 da Washington, DC" - questa non è più una distribuzione uniforme. L'auto ha più probabilità di trovarsi a 60 miglia di distanza da DC, che ovunque vicino a Los Angeles. Ci sono chiaramente più informazioni qui.

Quindi, la nostra misura deve avere un'entropia elevata per la prima risposta e una inferiore per la seconda. La divisa deve essere la distribuzione meno informativa, è sostanzialmente la risposta "Non ho idea".


7

L'argomento matematico si basa sulla disuguaglianza di Jensen per le funzioni concave. Cioè, se è una funzione concava su e sono punti in , quindi: f(x)[a,b]y1,yn[a,b]nf(y1+ynn)f(y1)++f(yn)

Applicalo per la funzione concava e la disuguaglianza di Jensen per e hai la prova. Nota che definisce una distribuzione di probabilità discreta, quindi la loro somma è 1. Ciò che ottieni è , con uguaglianza per la distribuzione uniforme.f(x)=xlog(x)yi=p(xi)p(xi)log(n)i=1np(xi)log(p(xi))


1
In realtà trovo che la prova della disuguaglianza di Jensen sia una prova molto più profonda concettualmente di quella AM-GM.
Casebash

4

In una nota a margine, c'è qualche connessione tra l'entropia che si verifica la teoria dell'informazione e i calcoli dell'entropia in chimica (termodinamica)?

Si C'è! Puoi vedere il lavoro di Jaynes e molti altri che seguono il suo lavoro (come qui e qui , per esempio).

Ma l'idea principale è che la meccanica statistica (e anche altri campi della scienza) può essere vista come l' inferenza che facciamo sul mondo .

Come ulteriore lettura, consiglierei il libro di Ariel Caticha su questo argomento.


1

Una spiegazione intuitiva:

Se mettiamo più massa di probabilità in un evento di una variabile casuale, dovremo toglierne alcuni dagli altri eventi. L'uno avrà meno contenuto informativo e più peso, gli altri più contenuto informativo e meno peso. Pertanto, l'entropia come contenuto di informazioni previsto diminuirà poiché l'evento con un contenuto di informazioni inferiore verrà ponderato di più.

Come caso estremo, immagina che un evento abbia probabilità di quasi uno, quindi gli altri eventi avranno una probabilità combinata di quasi zero e l'entropia sarà molto bassa.


0

Idea principale: prendere la derivata parziale di ogni , impostarli tutti a zero, risolvere il sistema di equazioni lineari.pi

Prendi un numero finito di dove per un esempio. Indica .pii=1,...,nq=1i=0n1pi

H=i=0n1pilogpi(1q)logqHln2=i=0n1pilnpi(1q)lnq
Hpi=lnqpi=0
Quindi per ogni , ovvero .q=piip1=p2=...=pn


Sono felice che tu abbia sottolineato che questa è l '"idea principale", perché è solo una parte dell'analisi. L'altra parte - che potrebbe non essere intuitiva e in realtà è un po 'più complicata - è verificare che questo sia un minimo globale studiando il comportamento dell'entropia mentre uno o più riducono a zero. pi
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.