Interpretazione statistica della massima distribuzione di entropia


23

Ho usato il principio della massima entropia per giustificare l'uso di diverse distribuzioni in vari contesti; tuttavia, devo ancora essere in grado di formulare un'interpretazione statistica, al contrario di quella teorica dell'informazione, della massima entropia. In altre parole, cosa implica massimizzare l'entropia riguardo alle proprietà statistiche della distribuzione?

Qualcuno ha incontrato o forse scoperto te stesso un'interpretazione statistica di max. distribuzioni di entropia che non si rivolgono alle informazioni, ma solo ai concetti probabilistici?

Come esempio di tale interpretazione (non necessariamente vero): "Per un intervallo di lunghezza arbitraria L sul dominio del camper (assumendo la sua continuità 1-d per semplicità), la probabilità massima che può essere contenuta in questo intervallo è ridotta al minimo dalla massima distribuzione di entropia ".

Quindi, vedi che non si parla di "informatività" o altre idee più filosofiche, solo implicazioni probabilistiche.


3
Penso che tu debba essere più specifico su ciò che stai cercando: l'entropia è, dopo tutto, una misura "statistica" come una varianza, quindi la massima distribuzione di entropia massimizza l'entropia è una descrizione statistica perfettamente valida. Quindi mi sembra che devi andare fuori dalle statistiche per trovare una "giustificazione"
seanv507

1
Seanv: concordo sul fatto che l'entropia, come funzionale statistico, è altrettanto "statistica" come la varianza, il valore atteso, l'inclinazione ecc. Tuttavia, usando la deviazione media e standard come esempi, questi hanno interpretazioni puramente probabilistiche tramite i teoremi di Markov e Chebyshev e, infine, in uno dei numerosi teoremi del limite centrale e anche intuitivamente come somme di lungo periodo (per la media) ed errore RMS (per la deviazione standard). Forse dovrei riformulare la mia domanda per leggere "Interpretazione probabilistica delle massime distribuzioni di entropia".
Annika,

1
Annika, la massima distribuzione di entropia ha la seguente interpretazione: Se sono variabili casuali, allora la proporzionalità condizionale P ( | X 1 + + X n = n a ) P ( ) come n dove P è la massima distribuzione di entropia dall'insieme { P : E P X = a }X1,X2,P(|X1++Xn=na)P()nP{P:EPX=a}. Vedi anche ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1
Ashok

2
Grazie Ashok. Devo dare un'occhiata a quel documento in modo più dettagliato. Questo sembra un caso specifico di massimizzazione dell'entropia per una data media, ma sono ancora curioso di sapere cosa sta facendo matematicamente l'operazione di massimizzazione dell'entropia di Shanon in modo tale che valga il risultato sopra? Riduce efficacemente la densità massima o la concentrazione media della misura di probabilità?
Annika,

Risposte:


19

Questo non è davvero il mio campo, quindi alcune riflessioni:

Inizierò con il concetto di sorpresa . Cosa significa essere sorpresi? Di solito, significa che è successo qualcosa che non era previsto. Quindi, sorprendilo come un concetto probabilistico e può essere spiegato come tale (IJ Good ne ha scritto). Vedi anche Wikipedia e Bayesian Surprise .

Prendi il caso particolare di una situazione sì / no, qualcosa può succedere o no. Succede con probabilità p . Dì, se p = 0.9 e succede, non sei davvero sorpreso. Se p=0.05 e succede, sei un po 'sorpreso. E se p=0.0000001 e succede, sei davvero sorpreso. Quindi, una misura naturale del "valore a sorpresa nel risultato osservato" è una funzione (anti) monotona della probabilità di ciò che è accaduto. Sembra naturale (e funziona bene ...) prendere il logaritmo di probabilità di ciò che è accaduto, e quindi lanciamo un segno meno per ottenere un numero positivo. Inoltre, prendendo il logaritmo ci concentriamo sull'ordine della sorpresa e, in pratica, le probabilità sono spesso conosciute solo su ordinazione, più o meno .

Quindi, definiamo

Surprise(A)=logp(A)
dove A è il risultato osservato e p(A) è la sua probabilità.

Ora possiamo chiedere qual è la sorpresa attesa . Sia X una variabile casuale di Bernoulli con probabilità p . Ha due possibili esiti, 0 e 1. I rispettivi valori di sorpresa sono

Surprise(0)=log(1p)Surprise(1)=logp
quindi la sorpresa osservandoXè essa stessa una variabile casuale con aspettativa
plogp+(1p)log(1p)
e cioè --- sorpresa! --- l'entropia diX! Quindi l'entropia èprevista sorpresa!

Ora, questa domanda riguarda la massima entropia . Perché qualcuno dovrebbe voler usare una distribuzione di entropia massima? Bene, deve essere perché vogliono essere sorpresi al massimo! Perché qualcuno lo vorrebbe?

Un modo per osservarlo è il seguente: vuoi imparare qualcosa e, a quell'obiettivo, hai impostato alcune esperienze di apprendimento (o esperimenti ...). Se sapevi già tutto su questo argomento, sei in grado di prevedere sempre perfettamente, quindi non essere mai sorpreso. Quindi non avrai mai nuove esperienze, quindi non imparare nulla di nuovo (ma sai già tutto --- non c'è nulla da imparare, quindi va bene). Nella situazione più tipica che sei confuso, incapace di prevedere perfettamente, c'è un'opportunità di apprendimento! Questo porta all'idea che possiamo misurare la "quantità di apprendimento possibile" dalla sorpresa attesa , cioè dall'entropia. Quindi, massimizzare l'entropia non è altro che massimizzare le opportunità di apprendimento. Sembra un concetto utile, che potrebbe essere utile nella progettazione di esperimenti e cose del genere.

Un esempio poetico è il noto

Wenn einer eine reise macht, dann kann er was erzählen ...

Un esempio pratico: vuoi progettare un sistema per test online (nel senso che non tutti ricevono le stesse domande, le domande vengono scelte in modo dinamico in base alle risposte precedenti, quindi ottimizzate, in qualche modo, per ogni persona).

Se fai domande troppo difficili, quindi non vengono mai padroneggiate, non impari nulla. Ciò indica che è necessario ridurre il livello di difficoltà. Qual è il livello di difficoltà ottimale, ovvero il livello di difficoltà che massimizza il tasso di apprendimento? Lascia che la probabilità di una risposta corretta sia p . Vogliamo il valore di p che massimizzi l'entropia di Bernoulli. Ma questo è p=0.5 . Quindi miri a porre domande in cui la probabilità di ottenere una risposta corretta (da quella persona) è 0,5.

Allora il caso di una vc continua X . Come possiamo essere sorpresi osservando X ? La probabilità di un risultato particolare {X=x} è zero, la definizione logp è inutile. Ma saremo sorpresi se la probabilità di osservare qualcosa come x è piccola, cioè se il valore della funzione di densità f(x) è piccolo (supponendo che f sia continuo). Questo porta alla definizione

Surprise(x)=logf(x)
Con tale definizione, la sorpresa attesa dall'osservazione di X è
E{logf(X)}=f(x)logf(x)dx
che è, la sorpresa ci si aspetta da osservareX è l'entropia differenziale dellaX . Può anche essere visto come loglikelihood atteso.

Ma questo non è proprio lo stesso del primo, evento, caso. Anche questo, un esempio. Lascia che la variabile casuale X rappresenti la lunghezza di un tiro di una pietra (diciamo in una competizione sportiva). Per misurare quella lunghezza dobbiamo scegliere un'unità di lunghezza, poiché non esiste una scala intrinseca per la lunghezza, così come lo è per la probabilità. Potremmo misurare in mm o in km, o più solitamente, in metri. Ma la nostra definizione di sorpresa, quindi sorpresa attesa, dipende dall'unità scelta, quindi non c'è invarianza. Per questa ragione, i valori dell'entropia differenziale non sono direttamente comparabili come l'entropia di Shannon. Potrebbe essere ancora utile se si ricorda questo problema.


5
Questa è una delle spiegazioni migliori e intuitive della massima entropia che io abbia mai visto!
Vladislavs Dovgalecs,

3

Pur non essendo un esperto di teoria dell'informazione e massima entropia, mi sono interessato per un po '.

L'entropia è una misura dell'incertezza di una distribuzione di probabilità che è stata derivata secondo una serie di criteri. Esso e le relative misure caratterizzano le distribuzioni di probabilità. Ed è la misura unica che soddisfa questi criteri. Questo è simile al caso della probabilità stessa, che come spiegato magnificamente in Jaynes (2003), è la misura unica che soddisfa alcuni criteri molto desiderabili per qualsiasi misura di incertezza delle affermazioni logiche.

Qualsiasi altra misura dell'incertezza di una distribuzione di probabilità diversa dall'entropia dovrebbe violare uno o più dei criteri utilizzati per definire l'entropia (altrimenti sarebbe necessariamente entropia). Quindi, se si ha qualche dichiarazione generale in termini di probabilità che in qualche modo ha dato gli stessi risultati di massima entropia ... allora sarebbe essere massima entropia!

La cosa più vicina che posso trovare ad una dichiarazione di probabilità sulle distribuzioni di entropia massima finora è il teorema di concentrazione di Jaynes . Puoi trovarlo chiaramente spiegato in Kapur e Kesavan (1992). Ecco una nuova riformulazione:

Abbiamo bisogno di una distribuzione di probabilità discreta p su nesiti. Cioè, abbiamo bisognopio, i=1,...,n. We have m constraints that our probability distribution has to satisfy; additionally, since probabilities must add to 1 we have a total of m+1 constraints.

Let S be the entropy of some distribution that satisfies the m+1 constraints and let Smax be the entropy of the maximum entropy distribution.

As the size of the set of observations N grows, we have

2N(SmaxS)χnm12.

With this, a 95% entropy interval is defined as

(Smaxχnm12(0.95)2N,Smax).
So, any other distribution that satisfies the same constraints as the maximum entropy distribution has a 95% chance of having entropy greater than Smaxχnm12(0.95)2N.

E.T. Jaynes (2003) Probability Theory: The Logic of Science. Cambridge University Press.

J.N. Kapur and .K. Kesavan (1992) Entropy Optimization Principles with Applications. Academic Press, Inc.


3

Perhaps not exactly what you are after, but in Rissanen, J. Stochastic Complexity in Statistical Inquiry, World Scientific, 1989, p. 41 there is an interesting connection of maximum entropy, the normal distribution and the central limit theorem. Among all densities with mean zero and standard deviation σ, the normal density has maximum entropy.

"Hence, in this interpretation the basic central limit theorem expresses the fact that the per symbol entropy of sums of independent random variables with mean zero and common variance tends to the maximum. This seems eminently reasonable; in fact, it is an expression of the second law of thermodynamics, which Eddington viewed as holding 'the supreme position among the laws of Nature'."

I have not yet explored the implications of this, nor am I sure I fully understand them.

[edit: fixed typo]

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.