Informazioni reciproche contro correlazione

51

Perché e quando dovremmo usare le informazioni reciproche su misure di correlazione statistica come "Pearson", "spearman" o "Kendall's tau"?

correlation mathematical-statistics mutual-information

— Saza
fonte

77

Consideriamo un concetto fondamentale di correlazione (lineare), covarianza (che è il coefficiente di correlazione di Pearson "non standardizzato"). Per due variabili casuali discrete e con funzioni di massa di probabilità , e pmf comune abbiamo $X$ $Y$ $p(x)$ $p(y)$ $p(x,y)$

Cov (X, Y) = E (X Y) - E (X) E (Y) = \sum_{x, y} p (x, y) x y - (\sum_{x} p (x) x) \cdot (\sum_{y} p (y) y)

$\operatorname{Cov}(X,Y) = E(XY) - E(X)E(Y) = \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right)$

\Rightarrow Cov (X, Y) = \sum_{x, y} [p (x, y) - p (x) p (y)] x y

$\Rightarrow \operatorname{Cov}(X,Y) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy$

Le informazioni reciproche tra i due sono definite come

I (X, Y) = E (\ln \frac{p (x, y)}{p (x) p (y)}) = \sum_{x, y} p (x, y) [\ln p (x, y) - \ln p (x) p (y)]

$I(X,Y) = E\left (\ln \frac{p(x,y)}{p(x)p(y)}\right)=\sum_{x,y}p(x,y)\left[\ln p(x,y)-\ln p(x)p(y)\right]$

Confronta i due: ognuno contiene una "misura" puntuale della "distanza dei due camper dall'indipendenza" in quanto è espressa dalla distanza del pmf congiunto dal prodotto dei pmf marginali: the ha come differenza di livelli, mentre ha come differenza di logaritmi. $\operatorname{Cov}(X,Y)$ $I(X,Y)$

E cosa fanno queste misure? In creano una somma ponderata del prodotto delle due variabili casuali. In creano una somma ponderata delle loro probabilità congiunte. $\operatorname{Cov}(X,Y)$ $I(X,Y)$

Quindi con guardiamo a ciò che la non indipendenza fa al loro prodotto, mentre in guardiamo a ciò che la non indipendenza fa alla loro distribuzione di probabilità congiunta. $\operatorname{Cov}(X,Y)$ $I(X,Y)$

Viceversa, è il valore medio della misura logaritmica della distanza dall'indipendenza, mentre è il valore ponderato della misura dei livelli della distanza dall'indipendenza, ponderata dal prodotto dei due camper. $I(X,Y)$ $\operatorname{Cov}(X,Y)$

Quindi i due non sono antagonisti: sono complementari e descrivono diversi aspetti dell'associazione tra due variabili casuali. Si potrebbe commentare che le informazioni reciproche "non si preoccupano" se l'associazione è lineare o no, mentre la covarianza può essere zero e le variabili possono essere ancora stocasticamente dipendenti. D'altra parte, Covariance può essere calcolata direttamente da un campione di dati senza la necessità di conoscere effettivamente le distribuzioni di probabilità coinvolte (poiché si tratta di un'espressione che coinvolge momenti della distribuzione), mentre le informazioni reciproche richiedono la conoscenza delle distribuzioni, la cui stima, se sconosciuto, è un lavoro molto più delicato e incerto rispetto alla stima di Covarianza.

— Alecos Papadopoulos
fonte

@ Alecos Papadopoulos; Grazie per la tua risposta esaustiva.

— SaZa,

1

Mi ponevo la stessa domanda ma non ho capito completamente la risposta. @Alecos Papadopoulos: ho capito che la dipendenza misurata non è la stessa, ok. Quindi per quale tipo di relazioni tra X e Y dovremmo preferire l'informazione reciproca I (X, Y) piuttosto che Cov (X, Y)? Recentemente ho avuto uno strano esempio in cui Y era quasi linearmente dipendente da X (era quasi una linea retta in un diagramma a dispersione) e Corr (X, Y) era uguale a 0,87 mentre I (X, Y) era uguale a 0,45 . Quindi ci sono chiaramente alcuni casi in cui un indicatore dovrebbe essere scelto rispetto all'altro? Grazie dell'aiuto!

— Gandhi91,

@ Gandhi91 Qual è stata l'entropia di , in questo caso specifico?

X

$X$

H (X)

$H(X)$

— Alecos Papadopoulos,

Questa è una risposta fantastica e molto chiara. Mi chiedevo se hai un esempio prontamente disponibile in cui cov è 0, ma pmi no.

— Grazie,

@thang. Non proprio. Si dovrebbe essere in grado di trovare un esempio in cui la covarianza è zero e allo stesso tempo disporre della distribuzione congiunta disponibile, per calcolare le informazioni reciproche (e la distribuzione congiunta non sarebbe il prodotto dei marginali, perché vogliamo che le variabili non siano indipendente).

— Alecos Papadopoulos,

7

Le informazioni reciproche sono una distanza tra due distribuzioni di probabilità. La correlazione è una distanza lineare tra due variabili casuali.

Puoi avere un'informazione reciproca tra due probabilità definite per un set di simboli, mentre non puoi avere una correlazione tra simboli che non possono essere mappati naturalmente in uno spazio R ^ N.

D'altra parte, le informazioni reciproche non fanno ipotesi su alcune proprietà delle variabili ... Se stai lavorando con variabili che sono fluide, la correlazione potrebbe dirti di più su di esse; per esempio se la loro relazione è monotona.

Se disponi di alcune informazioni precedenti, potresti essere in grado di passare da una all'altra; nelle cartelle cliniche è possibile mappare i simboli "ha il genotipo A" come 1 e "non ha il genotipo A" in valori 0 e 1 e vedere se questo ha una qualche forma di correlazione con una malattia o con un'altra. Allo stesso modo, puoi prendere una variabile che è continua (es: stipendio), convertirla in categorie discrete e calcolare le informazioni reciproche tra quelle categorie e un'altra serie di simboli.

— Pau Vilimelis Aceituno
fonte

La correlazione non è una funzione lineare. Dovrebbe dire che la correlazione è una misura della relazione lineare tra variabili casuali?

— Matthew Gunn,

1

Penso che: "Puoi avere un'informazione reciproca tra due probabilità definite per un insieme di simboli, mentre non puoi avere una correlazione tra simboli che non possono essere naturalmente mappati in uno spazio R ^ N" è probabilmente la chiave. Corr non ha senso se non si dispone di una variabile casuale completa; tuttavia, pmi ha senso anche solo con pdf e sigma (lo spazio). Questo è il motivo per cui in molte applicazioni in cui i camper non hanno senso (ad es. NLP), viene utilizzato pmi.

— Grazie,

6

Ecco un esempio

In questi due grafici il coefficiente di correlazione è zero. Ma possiamo ottenere informazioni reciproche condivise elevate anche quando la correlazione è zero.

Nel primo, vedo che se ho un valore alto o basso di X, è probabile che ottenga un valore alto di Y. Ma se il valore di X è moderato, allora ho un valore basso di Y. Il primo diagramma contiene informazioni sulle informazioni reciproche condivise da X e Y. Nel secondo diagramma, X non mi dice nulla su Y.

— dennislendrem
fonte

4

Sebbene entrambi siano una misura della relazione tra le caratteristiche, l'MI è più generale del coefficiente di correlazione (CE) sinusoidale, il CE è in grado di prendere in considerazione solo le relazioni lineari, ma l'IM può anche gestire le relazioni non lineari.

— Hossein9
fonte

Non è vero. Il coefficiente di correlazione di Pearson presuppone la normalità e la linearità di due variabili casuali, alternative come quelle di Spearman non parametriche no. Si ipotizza solo la monotonia tra i due camper.

— miagolio il