Intuizione su un'entropia comune

9

Ho difficoltà a sviluppare alcune intuizioni sull'entropia articolare. = incertezza nella distribuzione congiunta ; = incertezza in ; = incertezza in . $H(X,Y)$ $p(x,y)$ $H(X)$ $p_x(x)$ $H(Y)$ $p_y(y)$

Se H (X) è alto, la distribuzione è più incerta e se si conosce il risultato di tale distribuzione, si hanno più informazioni! Quindi H (X) quantifica anche le informazioni.

Ora possiamo mostrare $H(X,Y) \leq H(X) + H(Y)$

Ma se conosci puoi ottenere e quindi in un certo senso ha più informazioni di entrambi e , quindi non dovresti ' L'incertezza relativa a p (x, y) è maggiore della somma delle singole incertezze? $p(x,y)$ $p_x(x)$ $p_y(y)$ $p(x,y)$ $p_x(x)$ $p_y(y)$

information-theory mutual-information

— user21455
fonte

7

come regola generale, ulteriori informazioni non aumentano mai l'entropia, che è formalmente dichiarata come:

H (X | Y) \leq H (X) *

$\begin{equation} H(X|Y) \leq H(X) \, \, \, * \end{equation}$

l'uguaglianza vale se e sono indipendenti, il che implica . $X$ $Y$ $H(X|Y) = H(X)$

Questo risultato può essere usata per dimostrare l'entropia congiunta . Per dimostrarlo, considera un semplice caso . Secondo la regola della catena, possiamo scrivere l'entropia di join come di seguito $H(X_1, X_2, ..., X_n) \leq \sum_{i=1}^{n} H(X_i)$ $H(X,Y)$

H (X, Y) = H (X | Y) + H (Y)

$\begin{equation} H(X,Y) = H(X|Y) + H(Y) \end{equation}$

Considerando la disuguaglianza , non aumenta mai l'entropia della variabile , e quindi . Utilizzando l'induzione si può generalizzare questo risultato ai casi che coinvolgono più di due variabili. $*$ $H(X|Y)$ $X$ $H(X,Y) \leq H(X) + H(Y)$

Spero che abbia contribuito a ridurre l'ambiguità (o la tua entropia) sull'entropia comune!

— Omidi
fonte

4

C'è un altro punto di vista sull'entropia di Shannon. Immagina di voler indovinare attraverso le domande quale sia il valore concreto di una variabile. Per semplicità, immaginare che il valore può avvenire solo otto valori differenti , e tutti sono ugualmente probabili. $\left(0,1,..., 8\right)$

Il modo più efficiente è eseguire una ricerca binaria. Prima chiedi se è maggiore o minore di 4. Quindi confrontalo con 2 o 6 e così via. In totale non avrai bisogno di più di tre domande (qual è il numero di bit di questa distribuzione concreta).

Possiamo continuare l'analogia con il caso di due variabili. Se non sono indipendenti, conoscere il valore di uno di essi ti aiuta a fare ipotesi migliori (in media) per la domanda successiva (ciò si riflette nei risultati indicati da Omidi ). Quindi, l'entropia è inferiore, a meno che non siano completamente indipendenti, dove è necessario indovinare i loro valori in modo indipendente. Dire che l'entropia è più bassa significa (per questo esempio concreto) che devi fare meno domande in media (cioè il più delle volte farai buone ipotesi).

— jpmuc
fonte

2

Sembra che tu stia facendo il pensiero "se più informazioni quando conosci, quindi più entropia quando sconosciuto". Questa non è un'intuizione corretta, perché, se la distribuzione è sconosciuta, non ne conosciamo nemmeno l'entropia. Se la distribuzione è nota, l' entropia quantifica la quantità di informazioni necessarie per descrivere l'incertezza sulla realizzazione della variabile casuale, che rimane sconosciuta (conosciamo solo la struttura che circonda questa incertezza, conoscendo la distribuzione). L'entropia non quantifica l'informazione "presente" nella distribuzione. Al contrario: più informazioni "sono incluse" nella distribuzione, meno informazioni "sono necessarie" per descrivere l'incertezza, e quindi menol'entropia è. Considera la distribuzione uniforme: contiene pochissime informazioni, perché tutti i possibili valori della variabile sono equiprobabili: quindi ha la massima entropia tra tutte le distribuzioni con supporto limitato.

Per quanto riguarda l'entropia congiunta, è possibile pensarla come segue: la distribuzione congiunta contiene informazioni sulla dipendenza o meno di due variabili, oltre a informazioni sufficienti per derivare le distribuzioni marginali. Le distribuzioni marginali non contengono informazioni sul fatto che due variabili casuali siano dipendenti o indipendenti. Quindi la distribuzione congiunta ha più informazioni e ci offre meno incertezza riguardo alle variabili casuali coinvolte:

$\rightarrow$ $\rightarrow$ $\rightarrow$

— Alecos Papadopoulos
fonte

(X, Y)

$(X,Y)$

H (X, Y)

$H(X,Y)$

H (X) + H (Y)

$H(X) + H(Y)$

Sì, questa è l'essenza.

— Alecos Papadopoulos,