Guadagno di informazioni, informazione reciproca e misure correlate


33

Andrew More definisce il guadagno di informazioni come:

IG(Y|X)=H(Y)H(Y|X)

dove è l' entropia condizionale . Tuttavia, Wikipedia chiama le informazioni reciproche sulla quantità di cui sopra .H(Y|X)

Wikipedia, d'altra parte, definisce il guadagno di informazioni come la divergenza di Kullback-Leibler (nota anche come divergenza di informazioni o entropia relativa) tra due variabili casuali:

DKL(P||Q)=H(P,Q)H(P)

dove è definito come l' entropia crociata .H(P,Q)

Queste due definizioni sembrano incoerenti tra loro.

Ho anche visto altri autori parlare di due ulteriori concetti correlati, vale a dire l'entropia differenziale e il guadagno relativo delle informazioni.

Qual è la definizione o relazione precisa tra queste quantità? C'è un buon libro di testo che li copre tutti?

  • Guadagno di informazioni
  • Informazioni reciproche
  • Entropia incrociata
  • Entropia condizionale
  • Entropia differenziale
  • Guadagno relativo delle informazioni

2
Per aggiungere ulteriore confusione, nota che la notazione che hai usato per l'entropia incrociata è anche la stessa notazione usata per l'entropia articolare. Ho usato per l'entropia incrociata per evitare di confondermi, ma questo è a mio vantaggio e non ho mai visto quella notazione altrove. Hx(P,Q)
Michael McGowan,

Risposte:


24

Penso che chiamare la divergenza di Kullback-Leibler "guadagno di informazioni" non sia standard.

La prima definizione è standard.

EDIT: Tuttavia, può anche essere chiamato informazione reciproca.H(Y)H(Y|X)

Nota che non credo che troverai alcuna disciplina scientifica che abbia davvero uno schema di denominazione standardizzato, preciso e coerente. Quindi dovrai sempre guardare le formule, perché in genere ti daranno un'idea migliore.

Libri di testo: vedi "Buona introduzione a diversi tipi di entropia" .

Inoltre: Cosma Shalizi: Metodi e tecniche della scienza dei sistemi complessi: una panoramica, capitolo 1 (pagg. 33-114) in Thomas S. Deisboeck e J. Yasha Kresh (a cura di), Scienza dei sistemi complessi in biomedicina http: // arxiv.org/abs/nlin.AO/0307015

Robert M. Gray: Entropia e teoria dell'informazione http://ee.stanford.edu/~gray/it.html

David MacKay: Teoria dell'informazione, inferenza e algoritmi di apprendimento http://www.inference.phy.cam.ac.uk/mackay/itila/book.html

inoltre, "Che cos'è" entropia e guadagno di informazioni "?"


Grazie @lupo. Sono propenso ad accettare questa risposta. Se la prima definizione è standard, come definiresti le informazioni reciproche?
Amelio Vazquez-Reina,

2
spiacente. la prima quantità, viene spesso chiamata informazione reciproca. Questo è un caso di denominazione incoerente. Come ho detto, non credo che ci sia una corrispondenza coerente, inequivocabile, individuale tra concetti e nomi. Ad esempio "informazioni reciproche" o "guadagno di informazioni" è un caso speciale di divergenza di KL, in modo che l'articolo di Wikipedia non sia così lontano. IG(Y|X)=H(Y)H(Y|X)
wolf.rauch,

4

La divergenza di Kullback-Leiber tra e è uguale all'informazione reciproca, che può essere facilmente derivata:p(X,Y)P(X)P(Y)

I(X;Y)=H(Y)H(YX)=yp(y)logp(y)+x,yp(x)p(yx)logp(yx)=x,yp(x,y)logp(yx)y(xp(x,y))logp(y)=x,yp(x,y)logp(yx)x,yp(x,y)logp(y)=x,yp(x,y)logp(yx)p(y)=x,yp(x,y)logp(yx)p(x)p(y)p(x)=x,yp(x,y)logp(x,y)p(y)p(x)=DKL(P(X,Y)∣∣P(X)P(Y))

Nota:p(y)=xp(x,y)


1

Le informazioni reciproche possono essere definite usando Kullback-Liebler come

I(X;Y)=DKL(p(x,y)||p(x)p(y)).

1

Estrarre informazioni reciproche da set di dati testuali come funzionalità per addestrare il modello di apprendimento automatico: (il compito era quello di prevedere l'età, il genere e la personalità dei blogger)

inserisci qui la descrizione dell'immagine


1

Entrambe le definizioni sono corrette e coerenti. Non sono sicuro di ciò che trovi poco chiaro quando indichi più punti che potrebbero richiedere chiarimenti.

Innanzitutto : sono tutti nomi diversi per la stessa cosa. In contesti diversi uno di questi nomi può essere preferibile, lo chiamerò qui Informazioni .MIMutualInformation IGInformationGainIInformation

Il secondo punto è la relazione tra la divergenza di Kullback – Leibler - e Informazione . La divergenza di Kullback-Leibler è semplicemente una misura della dissomiglianza tra due distribuzioni. Le Informazioni possono essere definite in questi termini della dissomiglianza delle distribuzioni (vedere la risposta di Yters). Quindi l'informazione è un caso speciale di , in cui viene applicato per misurare la differenza tra la distribuzione congiunta effettiva di due variabili (che cattura la loro dipendenza ) e l'ipotetica distribuzione congiunta delle stesse variabili, se dovessero essere indipendente . Chiamiamo quella quantitàDKLKLDKLDInformazioni .

Il terzo punto da chiarire è inconsistente, sebbene standard di notazione in uso, cioè che è sia la notazione per congiunto entropia e cross-entropia pure.H(X,Y)

Quindi, ad esempio, nella definizione di Informazioni : in entrambe le ultime righe, è l' entropia congiunta . Ciò può sembrare incompatibile con la definizione nella pagina di guadagno delle informazioni: ma non hai omesso di citare l'importante chiarimento - viene utilizzato lì come croce

H(X,Y)DKL(P||Q)=H(P,Q)-H(P)H(P,Q)DKL(P||Q)=H(P,Q)H(P)H(P,Q)-entropia (come nel caso della pagina di entropia incrociata ).

Joint -entropy e Cross -entropy NON sono uguali.

Dai un'occhiata a questo e questo dove viene indirizzata questa notazione ambigua e viene offerta una notazione unica per l'entropia incrociata - Hq(p)

Spero di vedere questa notazione accettata e le pagine wiki aggiornate.


mi chiedo perché le equazioni non siano visualizzate correttamente ..
Shaohua Li
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.