Cos'è l'entropia empirica?


19

Nella definizione di insiemi congiuntamente tipici (in "Elements of Information Theory", cap. 7.6, p. 195), usiamo

-1nlogp(Xn)
comeentropia empiricadi unaconseguenza con. Non ho mai trovato questa terminologia prima d'ora. Non è definito esplicitamente da nessuna parte in base all'indice del libro.p ( x n ) = n i = 1 p ( x i )np(Xn)=Πio=1np(Xio)

La mia domanda in sostanza è: perché l'entropia empirica non è dove è la distribuzione empirica?p ( x )-ΣXp^(X)log(p^(X))p^(X)

Quali sono le differenze e le somiglianze più interessanti tra queste due formule? (in termini di proprietà che condividono / non condividono).


Le due espressioni non sono algebricamente uguali?
whuber

1
@whuber: No, sono quantità diverse, con scopi diversi, credo. Si noti che il primo utilizza la vera misura presunta nota a priori. Il secondo no. p
cardinale

3
Il primo riguarda l'accumulo di entropia nel tempo e il suo confronto con la vera entropia del sistema. SLLN e CLT raccontano molto su come si comporta. Il secondo riguarda la stima dell'entropia dai dati e alcune delle sue proprietà possono anche essere ottenute tramite gli stessi due strumenti appena menzionati. Ma, mentre il primo è imparziale, il secondo non è sotto alcun . Posso inserire alcuni dettagli se sarebbe utile. p
cardinale

1
@cardinal: Se desideri fornire il commento di cui sopra come una risposta (forse anche spiegare cosa SLLN e CLT sono - non so questi?) Mi piacerebbe molto upvote ...
blubb

Ok, proverò a postare più in seguito. Nel frattempo, SLLN = "Legge forte di grandi numeri" e CLT = "Teorema del limite centrale". Queste sono abbreviazioni abbastanza standard che probabilmente incontrerai di nuovo. Saluti. :)
cardinale

Risposte:


16

Xn=X1...XnnX

p^(X)=1n|{io|Xio=X}|=1nΣio=1nδX(Xio)
XXδX(Xio)Xio=Xp^(X)X
H(p^)=-ΣXXp^(X)logp^(X)=-ΣXX1nΣio=1nδX(Xio)logp^(X)=-1nΣio=1nlogp^(Xio).
ΣXXδX(Xio)logp^(X)=logp^(Xio).
H(p^)=-1nlogp^(Xn)
p^(Xn)=Πio=1np^(Xio)-1nlogp(Xn)p

3
(+1) Questo fornisce una bella illustrazione di ciò che Cover e Thomas chiamano "lo strano personaggio autoreferenziale" dell'entropia. Tuttavia, non sono sicuro che la risposta risolva effettivamente (direttamente) le preoccupazioni apparenti del PO. :)
cardinale

@cardinale, lo so, e la risposta è stata solo un lungo commento per sottolineare questo particolare punto. Non volevo ripetere i tuoi punti.
NRH,

1
Non dovresti sentirti male o esitare a pubblicare la tua risposta, compresa l'espansione sui miei commenti o su quelli di altri. Sono particolarmente lento e cattivo nel pubblicare risposte, e non mi offenderò mai se tu o altri pubblichi risposte che incorporano aspetti di cose che potrei aver precedentemente commentato brevemente. Anzi, al contrario. Saluti.
cardinale

7

L'entropia è definita per le distribuzioni di probabilità. Quando non ne hai uno, ma solo dati, e inserisci uno stimatore ingenuo della distribuzione di probabilità, ottieni entropia empirica. Questo è più semplice per le distribuzioni discrete (multinomiali), come mostrato in un'altra risposta, ma può anche essere fatto per altre distribuzioni tramite binning, ecc.

Un problema con l'entropia empirica è che è distorto per piccoli campioni. La stima ingenua della distribuzione di probabilità mostra ulteriori variazioni dovute al rumore di campionamento. Naturalmente si può usare uno stimatore migliore, ad esempio un precedente adatto per i parametri multinomiali, ma ottenerlo davvero imparziale non è facile.

Quanto sopra si applica anche alle distribuzioni condizionate. Inoltre, tutto è relativo al binning (o alla kernelization), quindi in realtà hai una sorta di entropia differenziale.


3
Dovremmo stare attenti a ciò a cui ci riferiamo come l' entropia empirica qui. Si noti che lo stimatore del plug-in è sempre distorto in basso per tutte le dimensioni del campione, sebbene il bias diminuirà all'aumentare della dimensione del campione. Non è solo difficile ottenere stimatori imparziali per l'entropia, ma piuttosto impossibile nel caso generale. Negli ultimi anni sono state condotte ricerche abbastanza intense in questo settore, in particolare nella letteratura sulle neuroscienze. Esistono molti risultati negativi, in effetti.
cardinale
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.