Teorema del limite centrale teorico dell'informazione


11

La forma più semplice del CLT teorico dell'informazione è la seguente:

Sia X1,X2, essere identificato con media 0 e varianza 1 . Sia fn la densità della somma normalizzata i=1nXinϕn D ( f nϕ ) 0 n D(fnϕ)=fnlog(fn/ϕ)dxnD(fnϕ)0n

Certamente questa convergenza, in un certo senso, è "più forte" delle ben radicate convergenze in letteratura, convergenza nella distribuzione e convergenza nella metrica L1 , grazie alla disuguaglianza di Pinsker (|fnϕ|)22fnlog(fn/ϕ) . Cioè, la convergenza nella divergenza KL implica la convergenza nella distribuzione e la convergenza nella distanza L1 .

Vorrei sapere due cose.

  1. Cosa c'è di così straordinario nel risultato D(fnϕ)0 ?

  2. E 'solo a causa del motivo risulta dal terzo comma, diciamo convergenza KL-divergenza ( ad esempio , D(fnϕ)0 ) è più forte?

NB: Ho fatto questa domanda qualche tempo fa in math.stackexchange dove non ho ricevuto alcuna risposta.


Fornisci un link alla domanda duplicata math.SE.
cardinale il

6
La tua affermazione sembra assumere implicitamente l'esistenza di una densità (rispetto alla misura di Lebesgue). Potresti essere interessato a questo breve e delizioso documento: AR Barron (1986), Entropy e il teorema del limite centrale Ann. Probab. , vol 14, n. 1, 336-342. ( accesso aperto ).
cardinale il

2
Avevo già guardato quel foglio. Ha dato una motivazione nella prospettiva teorica dell'informazione nel secondo paragrafo della pagina 1. Non era poi così chiaro per me in quel momento. Ora sembra a posto. Tuttavia, se uno può spiegare chiaramente quanto segue e pubblicare come risposta, sarebbe fantastico. "Dalla teoria dell'informazione, l'entropia relativa è il limite inferiore inferiore alla ridondanza (lunghezza della descrizione media in eccesso) del codice Shannon in base alla distribuzione normale quando si descrivono le quantizzazioni di campioni da ." Ho eliminato quella domanda in matematica.SE poiché non attirava nessuno lìf nDnfn
Ashok,

@cardinal: tks per la bella carta.
Zen,

Risposte:


5

Una cosa fantastica di questo teorema è che suggerisce teoremi limite in alcune impostazioni in cui non si applica il solito teorema limite centrale. Ad esempio, in situazioni in cui la massima distribuzione entropica è una distribuzione non normale, come per le distribuzioni sul cerchio, suggerisce la convergenza a una distribuzione uniforme.


Non capisco. Come ho già detto, la convergenza nella divergenza di KL implica la convergenza nella distribuzione, sai? Pertanto, ovunque si applichi il CLT teorico delle informazioni, si applica anche il CLT normale. Inoltre, il CLT teorico delle informazioni assume anche una varianza finita. Oppure mi sfugge qualcosa?
Ashok,

2
Ciò che intendevo dire è che il metodo entropico suggerisce quale potrebbe essere il limite in situazioni in cui il limite non è una distribuzione normale. Il limite è quindi una distribuzione che massimizza l'entropia.
kjetil b halvorsen,

3

Dopo essermi guardato intorno, non sono riuscito a trovare alcun esempio di convergenza nella distribuzione senza convergenza nell'entropia relativa, quindi è difficile misurare la "grandezza" di quel risultato.

A me sembra che questo risultato descriva semplicemente l'entropia relativa dei prodotti di convoluzione. Viene spesso visto come un'interpretazione alternativa e una struttura di prova del Teorema del limite centrale, e non sono sicuro che abbia un'implicazione diretta nella teoria della probabilità (anche se nella teoria dell'informazione).

Dalla teoria dell'informazione e dal teorema del limite centrale (pagina 19).

La Seconda Legge della Termodinamica afferma che l'entropia termodinamica aumenta sempre con il tempo, implicando una sorta di convergenza con lo stato di Gibbs. Conservazione dell'energia significa che rimane costante durante questa evoluzione temporale, quindi possiamo dire fin dall'inizio quale stato di Gibbs sarà il limite. Considereremo il Teorema del limite centrale allo stesso modo, dimostrando che l'entropia teorica dell'informazione aumenta al massimo mentre prendiamo le convoluzioni, implicando la convergenza con il gaussiano. La normalizzazione in modo appropriato significa che la varianza rimane costante durante le convoluzioni in modo da poter dire fin dall'inizio quale gaussiano sarà il limite.E


2
Ci sono molti esempi di convergenza nella distribuzione senza convergenza nell'entropia relativa - ogni volta che ha una distribuzione discreta e si applica il CLT. Xi
Mark Meckes,

1

n D(fnϕ)0 assicura che non ci sia "distanza" tra la distribuzione della somma delle variabili casuali e la densità gaussiana come solo a causa della definizione di divergenza KL, quindi è la prova si. Forse ho frainteso la tua domanda.n

Circa il secondo punto che hai nominato, ha risposto nel tuo paragrafo.


1
Il CLT normale (Lindberg) afferma che la media del campione converge nella distribuzione in un camper normale. Ciò significa che il CDF converge puntualmente in . C'è una sottile differenza teorica tra questo e il risultato del PO che non si riflette nella tua risposta qui. Φ
AdamO,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.