Relazione tra i coefficienti di correlazione phi, Matthews e Pearson


13

I coefficienti di correlazione phi e Matthews sono lo stesso concetto? In che modo sono correlati o equivalenti al coefficiente di correlazione di Pearson per due variabili binarie? Presumo che i valori binari siano 0 e 1.


Correlazione di Pearson tra due variabili aleatorie di Bernoulli ed y è:xy

ρ=E[(xE[x])(yE[y])]Var[x]Var[y]=E[xy]E[x]E[y]Var[x]Var[y]=n11nn1n1n0n1n0n1

dove

E[x]=n1nVar[x]=n0n1n2E[y]=n1nVar[y]=n0n1n2E[xy]=n11n

Coefficiente Phi da Wikipedia:

In statistica, il coefficiente phi (indicato anche come "coefficiente medio di contingenza quadrata" e indicato da o ) è una misura dell'associazione per due variabili binarie introdotte da Karl Pearson. Questa misura è simile al coefficiente di correlazione di Pearson nella sua interpretazione. Infatti, un coefficiente di correlazione di Pearson stimato per due variabili binarie restituirà il coefficiente phi ...r ϕϕrϕ

Se abbiamo una tabella 2 × 2 per due variabili casuali eyxy

inserisci qui la descrizione dell'immagine

Il coefficiente phi che descrive l'associazione di ed è xy

ϕ=n11n00n10n01n1n0n0n1

Coefficiente di correlazione di Matthews da Wikipedia:

Il coefficiente di correlazione di Matthews (MCC) può essere calcolato direttamente dalla matrice di confusione usando la formula:

MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

In questa equazione, TP è il numero di veri positivi, TN il numero di veri negativi, FP il numero di falsi positivi e FN il numero di falsi negativi. Se una delle quattro somme nel denominatore è zero, il denominatore può essere arbitrariamente impostato su uno; ciò si traduce in un coefficiente di correlazione di Matthews pari a zero, che può essere dimostrato essere il valore limite corretto.

Risposte:


14

Sì, sono uguali. Il coefficiente di correlazione di Matthews è solo una particolare applicazione del coefficiente di correlazione di Pearson a una tabella di confusione.

Una tabella di contingenza è solo un riepilogo dei dati sottostanti. È possibile riconvertirlo dai conteggi mostrati nella tabella di contingenza in una riga per osservazioni.

Considera la matrice di confusione di esempio utilizzata nell'articolo di Wikipedia con 5 veri positivi, 17 veri negativi, 2 falsi positivi e 3 falsi negativi

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000

Grazie Peter! Matematicamente, perché phi e Mathew sono equivalenti a Pearson per due variabili binarie casuali?
Tim

Se prendi la definizione della correlazione di Pearson e la manipoli in modo che si riferisca ai conteggi piuttosto che alle somme delle differenze tra le singole osservazioni e i mezzi, ottieni la formula di Matthews. In realtà non l'ho fatto, ma deve essere ragionevolmente semplice.
Peter Ellis,

2

Innanzitutto, si è verificato un errore di battitura nella domanda: non è ma piuttostoE[xy]n1n1n2

n11n×1×1+n10n×1×0+n01n×0×1+n00n×0×0=n11n

In secondo luogo, la chiave per mostrare che èρ=ϕ

n11nn1n1=n11(n01+n10+n11+n00)(n11+n10)(n11+n01)=n11n00n10n01
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.