Domande sulla divergenza di KL?


14

Sto confrontando due distribuzioni con la divergenza di KL che mi restituisce un numero non standardizzato che, secondo quanto ho letto su questa misura, è la quantità di informazioni necessarie per trasformare un'ipotesi nell'altra. Ho due domande:

a) C'è un modo per quantificare una divergenza KL in modo che abbia un'interpretazione più significativa, ad esempio come una dimensione dell'effetto o un R ^ 2? Qualche forma di standardizzazione?

b) In R, quando si usa KLdiv (pacchetto flexmix) si può impostare il valore 'esp' (standard esp = 1e-4) che imposta tutti i punti più piccoli di esp rispetto ad alcuni standard al fine di fornire stabilità numerica. Ho giocato con diversi valori esp e, per il mio set di dati, sto ottenendo una divergenza KL sempre più grande quanto minore è il numero che scelgo. Cosa sta succedendo? Mi aspetto che quanto più piccolo è l'esp, tanto più affidabili dovrebbero essere i risultati poiché lasciano che più "valori reali" diventino parte della statistica. No? Devo cambiare esp poiché altrimenti non calcola la statistica ma si presenta semplicemente come NA nella tabella dei risultati ...

Risposte:


10

Supponiamo che ti vengano dati n campioni IID generati da p o da q. Vuoi identificare quale distribuzione li ha generati. Prendi come ipotesi nulla che siano stati generati da q. Lasciate indicare una probabilità di errore di tipo I, rifiutando erroneamente l'ipotesi nulla e b indicano la probabilità di errore di tipo II.

Quindi per n grande, la probabilità di errore di tipo I è almeno

exp(nKL(p,q))

In altre parole, per una procedura di decisione "ottimale", la probabilità di tipo I diminuisce al massimo di un fattore di exp (KL (p, q)) con ciascun punto dati. L'errore di tipo II scende al massimo per fattore di .exp(KL(q,p))

Per n arbitrari, a e b sono correlati come segue

BlogB1-un'+(1-B)log1-Bun'nKL(p,q)

e

un'logun'1-B+(1-un')log1-un'BnKL(q,p)

Se esprimiamo il limite sopra come limite inferiore su a in termini di b e KL e riduciamo b a 0, il risultato sembra avvicinarsi al limite "exp (-n KL (q, p))" anche per la piccola n

Maggiori dettagli a pagina 10 qui e pagine 74-77 di "Teoria e statistica dell'informazione" di Kullback (1978).

Come nota a margine, questa interpretazione può essere utilizzata per motivare la metrica di Fisher Information, poiché per ogni coppia di distribuzioni p, q alla distanza di Fisher k l'una dall'altra (piccola k) è necessario lo stesso numero di osservazioni per distinguerle


1
+1 Mi piace questa interpretazione! potresti chiarire "p below e"? perché prendi la piccola e? dici "la probabilità di fare l'errore opposto è" è un limite superiore o una probabilità esatta? Se ricordo, questo tipo di approccio è dovuto a Chernoff, hai i riferimenti (trovo che il tuo primo riferimento non chiarisca il punto :))?
Robin Girard,

1
Perché prendo un piccolo e ... hmm ... è quello che ha fatto il documento di Balasubramanian, ma ora, tornando a Kullback, sembra che il suo limite valga per qualsiasi e, e dà anche il limite per n finito, lasciami aggiornare la risposta
Yaroslav Bulatov,

ok, non abbiamo bisogno di una piccola e (ora chiamata b, errore di tipo II) per essere piccola per il mantenimento, ma b = 0 è il valore per il quale il limite semplificato (exp (-n KL (p, q)) corrisponde al limite più complicato sopra. Curiosamente, limite inferiore per errore di tipo I dato 0 L'errore di tipo II è <1, mi chiedo se <1 Il tasso di errore di tipo II è effettivamente raggiungibile
Yaroslav Bulatov

1
In realtà un riferimento molto più facile da capire per questo è "Elements of Information Theory" di Cover, pagina 309, 12.8 "Stein's Lemma"
Yaroslav Bulatov

8

KL ha un significato profondo quando si visualizza un insieme di dentature come una varietà all'interno del tensore metrico del pescatore, che fornisce la distanza geodetica tra due distribuzioni "ravvicinate". formalmente:

ds2=2KL(p(x,θ),p(x,θ+dθ))

Le seguenti righe sono qui per spiegare con dettagli cosa si intende con questo las formule matematiche.

Definizione della metrica di Fisher.

D=(f(x,θ))RnxRpF=(Fij)

Fij=E[d(logf(x,θ))/dθid(logf(x,θ))/dθj]

DF(θ)

Potresti dire ... OK astrazione matematica ma dov'è KL?

p=1F11

ds2p(x,θ)p(x,θ+dθ)

ds2=Fijdθidθj

ed è noto per essere il doppio della divergenza di Kullback Leibler:

ds2=2KL(p(x,θ),p(x,θ+dθ))

Se vuoi saperne di più, ti suggerisco di leggere l'articolo di Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (Penso che ci sia anche un libro di Amari su geometria riemanniana in statistica ma non ricordo il nome)


Aggiungi $ attorno a LaTeX. Ora dovrebbe essere reso ok. Vedi meta.math.stackexchange.com/questions/2/…
Rob Hyndman,

1
Dal momento che non sono un matematico né uno statistico, vorrei ribadire ciò che stavi dicendo per assicurarmi di non aver capito male. Quindi, stai dicendo che prendere ds ^ 2 (due volte il KL) avrebbe un significato simile a R ^ 2 (in un modello di regressione) per una distribuzione generale. E che questo potrebbe effettivamente essere usato per quantificare le distanze geometricamente? Ds ^ 2 ha un nome in modo che io possa leggere di più al riguardo? Esiste un documento che descrive direttamente questa metrica e mostra applicazioni ed esempi?
Ampleforth

Penso che tu sia lungi dal comprendere il punto, e non sono sicuro che dovresti provare ad andare oltre ora. Se sei motivato, puoi leggere l'articolo di Bradley Efron di cui ho parlato o l'articolo di Amari projecteuclid.org/… .
Robin Girard,

1
Questa sembra essere una caratterizzazione della derivata direzionale di KL piuttosto che della stessa KL, e non sembra possibile farne uscire la divergenza KL perché a differenza della derivata, la divergenza KL non dipende dalla geometria del collettore
Yaroslav Bulatov l'

7

La divergenza KL (p, q) tra le distribuzioni p (.) E q (.) Ha un'interpretazione teorica dell'informazione intuitiva che potresti trovare utile.

Supponiamo di osservare i dati x generati da una certa distribuzione di probabilità p (.). Un limite inferiore sulla lunghezza media del codice in bit richiesto per indicare i dati generati da p (.) È dato dall'entropia di p (.).

Ora, poiché non conosciamo p (.) Scegliamo un'altra distribuzione, diciamo, q (.) Per codificare (o descrivere, dichiarare) i dati. La lunghezza media del codice generata da p (.) E codificata usando q (.) Sarà necessariamente più lunga rispetto alla distribuzione vera p (.) Per la codifica. La divergenza di KL ci parla delle inefficienze di questo codice alternativo. In altre parole, la divergenza KL tra p (.) E q (.) È il numero medio di bit extra richiesti per codificare i dati generati da p (.) Usando la distribuzione di codifica q (.). La divergenza KL non è negativa ed è uguale a zero se viene utilizzata la distribuzione di generazione dei dati effettiva per codificare i dati.


2

Per la parte (b) della tua domanda, potresti riscontrare il problema che una delle tue distribuzioni ha densità in una regione dove l'altra no.

D(PQ)=pilnpiqi

ipi>0qi=0qi=0qi

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.