Stimare l'entropia delle informazioni attraverso il campionamento di Monte Carlo


10

Sto cercando metodi che consentano di stimare l'entropia delle informazioni di una distribuzione quando le uniche modalità pratiche di campionamento da quella distribuzione sono i metodi Monte Carlo.

Il mio problema non è diverso dal modello Ising standard che viene generalmente utilizzato come esempio introduttivo per il campionamento di Metropolis-Hastings. Ho una distribuzione di probabilità su un insieme , vale a dire ho p ( una ) per ogni un A . Gli elementi a A sono di natura combinatoria, come gli stati di Ising, e ne esiste un numero molto elevato. Ciò significa che in pratica non ricevo mai lo stesso campione due volte durante il campionamento da questa distribuzione su un computer. p ( a ) non può essere calcolato direttamente (a causa della non conoscenza del fattore di normalizzazione), ma il rapporto p ( aAp(a)aAaAp(a) è facile da calcolare.p(a1)/p(a2)

Voglio stimare l'entropia informativa di questa distribuzione,

S=-Σun'UNp(un')lnp(un').

In alternativa, voglio stimare la differenza di entropia tra questa distribuzione e quella ottenuta restringendola a un sottoinsieme (e ovviamente ri-normalizzando).un'UN1UN

Risposte:


3

Se capisco quali informazioni hai a disposizione, ciò che desideri non è possibile: le informazioni a tua disposizione non sono sufficienti per determinare l'entropia. Non è nemmeno abbastanza per approssimare l'entropia.

Sembra che tu abbia un modo per campionare dalla distribuzione e hai un modo per calcolare il rapporto p ( a 1 ) / p ( a 2 ) per qualsiasi coppia di elementi a 1 , a 2 che hai ottenuto tramite campionamento, ma non hai altre informazioni. In tal caso, il problema non è risolvibile.p()p(un'1)/p(un'2)un'1,un'2

In particolare, possiamo trovare una coppia di distribuzioni che hanno entropie diverse, ma che non possono essere distinte utilizzando le informazioni a tua disposizione. Considerare innanzitutto la distribuzione uniforme su un set (casuale) di dimensioni . Considera quindi la distribuzione uniforme su un set (casuale) di dimensioni 2 300 . Questi hanno entropie diverse (200 bit contro 300 bit). Tuttavia, date le informazioni a tua disposizione, non hai modo di sapere con quale di queste due distribuzioni stai lavorando. In particolare, in entrambi i casi, il rapporto p ( a 1 ) / p ( a 2 )22002300p(un'1)/p(un'2)sarà sempre esattamente 1, quindi i rapporti non ti aiuteranno a distinguere tra le due distribuzioni. E a causa del paradosso del compleanno, puoi campionare quanto vuoi, ma non otterrai mai lo stesso valore due volte (non durante la tua vita, tranne con una probabilità esponenzialmente piccola), quindi i valori che ottieni dal campionamento sembreranno solo punti casuali e non contengono informazioni utili.

Quindi, per risolvere il tuo problema, dovrai sapere qualcosa di più. Ad esempio, se si conosce qualcosa sulla struttura della distribuzione , ciò potrebbe consentire di risolvere il problema.p()


ha infatti una proprietà speciale: è simile a Gibbs, cioè p ( a ) exp ( θ E ( a ) ) dove E è l '"energia" di a . Tranne che ci sono più quantità di "energia", ognuna con il suo corrispondenteparametro θ . p(un')p(un')αexp(θE(un'))Eun'θ
Charles Wells,

1
@CharlesWells, non sto seguendo ciò che intendi per "quantità multiple". Sembra che valga la pena pubblicare separatamente, come una domanda separata, in cui ci fornisci informazioni sulla struttura di . Forse c'è una soluzione a quel caso speciale. p(un')
DW

2

Per la seconda parte della tua domanda (la stima di entropia differenza tra le distribuzioni) si può essere in grado di utilizzare l'identità dove E è l'energia media, T è la temperatura (è proporzionale a θ in p e θ E ), e S è l'entropia. Per i dettagli, vedere: Jaynes, E. (1957). Teoria dell'informazione e meccanica statistica. Revisione fisica, 106 (4), 620–630. http://doi.org/10.1103/PhysRev.106.620 .

F=E-TS,
ETθpαeθES

ΔFΔSΔFΔEUN1UNEUN1

Ecco due riferimenti aggiuntivi sugli algoritmi per il calcolo dell'energia libera:

Lelièvre, T., Rousset, M., & Stoltz, G. (2010). Calcoli energetici gratuiti. Imperial College Press. http://doi.org/10.1142/9781848162488

Chipot, C., & Pohorille, A. (2007). Calcoli energetici gratuiti. (C. Chipot & A. Pohorille, Eds.) (Vol. 86). Berlino, Heidelberg: Springer Berlin Heidelberg. http://doi.org/10.1007/978-3-540-38448-9


Puoi fornire riferimenti più pratici per il calcolo delle differenze di energia gratuite? Quella wiki non va molto lontano
Charles Wells,

Fatto. Ho aggiunto altri due riferimenti e ho indicato i collegamenti nella barra laterale del wiki.
Juan M. Bello-Rivas,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.