Cosa ci dice l'entropia?


32

Sto leggendo l' entropia e sto facendo fatica a concettualizzare cosa significhi nel caso continuo. La pagina wiki afferma quanto segue:

La distribuzione di probabilità degli eventi, unita alla quantità di informazioni di ogni evento, forma una variabile casuale il cui valore atteso è la quantità media di informazioni, o entropia, generata da questa distribuzione.

Quindi, se calcolo l'entropia associata a una distribuzione di probabilità che è continua, cosa mi dice davvero? Danno un esempio sul lancio delle monete, quindi sul caso discreto, ma se esiste un modo intuitivo per spiegare un esempio come quello nel caso continuo, sarebbe fantastico!

Se aiuta, la definizione di entropia per una variabile casuale continua X è la seguente:

dove P ( x ) è una funzione di distribuzione di probabilità.

H(X)=P(x)logbP(x)dx
P(x)

Per provare a renderlo più concreto, considera il caso di , quindi, secondo Wikipedia , l'entropia èXGamma(α,β)

H(X)=E[ln(P(X))]=E[αln(β)+ln(Γ(α))+ln(Γ(α))(α1)ln(X)+βX]=αln(β)+ln(Γ(α))+(1α)(ddαln(Γ(α)))

E così ora abbiamo calcolato l'entropia per una distribuzione continua (distribuzione Gamma) e quindi se ora valuto quell'espressione, , dati α e β , cosa mi dice in realtà quella quantità? H(X)αβ


5
(+1) Quella citazione fa riferimento a un passaggio davvero sfortunato. Sta tentando, in modo laborioso e opaco, di descrivere e interpretare la definizione matematica di entropia. Tale definizione è . Esso può essere visto come l'aspettativa di log ( f ( X ) ) dove f è la pdf di una variabile casuale X . Sta tentando di caratterizzare il registro ( f ( x ) )f(x)log(f(x))dxlog(f(X))fXlog(f(x))come "quantità di informazioni" associata al numero . x
whuber

5
Vale la pena chiederlo, perché esiste un problema tecnico delicato ma importante: la versione continua dell'entropia non gode delle stesse proprietà della versione discreta (che ha un'interpretazione naturale e intuitiva in termini di informazioni). @Tim AFAIK, quel thread sulla matematica affronta solo il caso discreto .
whuber

1
@RustyStatistician pensa a come a dirti quanto sorprendente sia stato il risultato x. Stai quindi calcolando la sorpresa prevista. log(f(x))
Adrian,

3
Per quanto riguarda il problema tecnico riferimenti @whuber, questo potrebbe essere di interesse.
Sean Easter,

3
Nel caso in cui tu sia interessato a tecnicismi: Entropy è basato su una pseudo-metrica chiamata divergenza di Kullback-Leibler che viene utilizzata per descrivere le distanze tra gli eventi nella loro rispettiva misura, vedi projecteuclid.org/euclid.aoms/1177729694 per l'originale ( e volgare) carta di Kullback e Leibler. Il concetto riappare anche nei criteri di selezione del modello come AIC e BIC.
Jeremias K,

Risposte:


31

L'entropia ti dice quanta incertezza c'è nel sistema. Supponiamo che tu stia cercando un gatto e sai che si trova tra la casa e i vicini, a 1 miglio di distanza. I tuoi figli ti dicono che la probabilità che un gatto si trovi sulla distanza da casa tua è descritta meglio dalla distribuzione beta f ( x ; 2 , 2 ) . Così un gatto potrebbe essere ovunque tra 0 e 1, ma più probabile che sia nel mezzo, vale a dire x m una x = 1 / 2 .x f(x;2,2)xmax=1/2

enter image description here

Inseriamo la distribuzione beta nella tua equazione, quindi ottieni .H=0.125

Successivamente, chiedi a tua moglie e ti dice che la migliore distribuzione per descrivere la sua conoscenza del tuo gatto è la distribuzione uniforme. Se lo colleghi all'equazione di entropia, otterrai .H=0

Sia la distribuzione uniforme che quella beta consentono al gatto di trovarsi tra 0 e 1 miglia da casa tua, ma c'è più incertezza nell'uniforme, perché tua moglie non ha davvero idea di dove si nasconda il gatto, mentre i bambini hanno qualche idea , pensano che sia più probabilmente essere da qualche parte nel mezzo. Ecco perché l'entropia di Beta è inferiore a quella di Uniform.

enter image description here

Potresti provare altre distribuzioni, forse il tuo vicino ti dice che al gatto piace stare vicino a una delle case, quindi la sua distribuzione beta è con . La sua H deve essere di nuovo inferiore a quella dell'uniforme, perché hai un'idea di dove cercare un gatto. Indovina se l'entropia delle informazioni del tuo vicino è superiore o inferiore a quella dei tuoi figli? Scommetto sui bambini ogni giorno su questi argomenti.α=β=1/2H

enter image description here

AGGIORNARE:

Δp

pi=pΔp
pj=p+Δp

HH=pilnpipiln(piΔp)+pjlnpjpjln(pj+Δp)
=plnppln[p(1Δp/p)]+plnppln[p(1+Δp/p)]
=ln(1Δp/p)ln(1+Δp/p)>0
This means that any disturbance from the uniform distribution reduces the entropy (uncertainty). To show the same in continuous case, I'd have to use calculus of variations or something along this line, but you'll get the same kind of result, in principle.

UPDATE 2: The mean of n uniform random variables is a random variable itself, and it's from Bates distribution. From CLT we know that this new random variable's variance shrinks as n. So, uncertainty of its location must reduce with increase in n: we're more and more certain that a cat's in the middle. My next plot and MATLAB code shows how the entropy decreases from 0 for n=1 (uniform distribution) to n=13. I'm using distributions31 library here.

enter image description here

x = 0:0.01:1;
for k=1:5
    i = 1 + (k-1)*3;
    idx(k) = i;
    f = @(x)bates_pdf(x,i);
    funb=@(x)f(x).*log(f(x));
    fun = @(x)arrayfun(funb,x);
    h(k) = -integral(fun,0,1);
    subplot(1,5+1,k)

    plot(x,arrayfun(f,x))
    title(['Bates(x,' num2str(i) ')'])
    ylim([0 6])
end

subplot(1,5+1,5+1)
plot(idx,h)
title 'Entropy'

1
(+1) I'll wait to see others interpretations but I really like this one. So it seems like to be able to make use of entropy as a measure of certainty you need to compare it against other distributions? I.e., the number by itself doesn't tell you much?
RustyStatistician

1
@RustyStatistician, I wouldn't say its absolute value is totally meaningless., but yes, it's most useful when used to compare the states of the system. The easy way to internalize entropy is to think of it as measure of uncertainty
Aksakal

Problem with this answer is that the term "uncertainty" is left undefined.
kjetil b halvorsen

1
the term is left uncertain
Aksakal

This is very nice.
Astrid

1

I'd like to add a straightforward answer to this question:

what does that quantity actually tell me?

It's intuitive to illustrate that in a discrete scenario. Suppose that you toss a heavily biased coin, saying the probability of seeing a head on each flip is 0.99. Every actual flip tells you very little information because you almost already know that it will be head. But when it comes to a fairer coin, it't harder for you to have any idear what to expect, then every flip tells you more information than any more biased coin. The quantity of information obtained by observing a single toss is equated with log1p(x).

What the quantity of the entropy tells us is the information every actual flipping on (weighted) average can convey: Elog1p(x)=p(x)log1p(x). The fairer the coin the larger the entropy, and a completely fair coin will be maximally informative.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.