Perché la correlazione non è molto utile quando una delle variabili è categorica?


14

Questo è un po 'un controllo dell'intestino, per favore aiutatemi a vedere se sto fraintendendo questo concetto, e in che modo.

Ho una comprensione funzionale della correlazione ma mi sento un po 'afferrato per spiegare con sicurezza i principi alla base di quella comprensione funzionale.

Da quanto ho capito, la correlazione statistica (al contrario dell'uso più generale del termine) è un modo per comprendere due variabili continue e il modo in cui fanno o non tendono ad aumentare o diminuire in modo simile.

Il motivo per cui non è possibile eseguire correlazioni su, per esempio, una variabile continua e una variabile categorica è perché non è possibile calcolare la covarianza tra le due, poiché la variabile categorica per definizione non può produrre una media e quindi non può nemmeno entrare nella prima fasi dell'analisi statistica.

È giusto?


2
Ecco le diapositive delle lezioni dattiloscritte di una lezione che insegno principalmente sulla correlazione della popolazione (non sul campione) e sulla covarianza people.virginia.edu/~trb5me/3120_slides/5/5.2/5.2.pdf
Taylor

3
Semplice motivo, immagina di chiedere alle persone "qual è il tuo colore preferito?" e rispondono "rosso", "verde", "blu", "arancione", "giallo", ..., ciò che è codificato nel tuo set di dati come 1, 2, 3, ... Successivamente, calcoli il coefficiente di correlazione tra tale variabile con soddisfazione professionale e ottenere valore 0,21. Cosa significa? Potresti fornire qualche interpretazione significativa?
Tim

2
Strettamente correlato (forse anche un duplicato?) - Correlazione tra una variabile nominale (IV) e una continua (DV)
Silverfish

@Taylor: cosa utilizziamo quando entrambe le variabili sono continue / numeriche ma una è stocastica e l'altra non è, ad esempio, le ore studiate rispetto al GPA?
MSIS,

Risposte:


16

Correlazione è standardizzata covarianza, cioè la covarianza di X ed y diviso per la deviazione standard di X ed y . Permettetemi di illustrarlo.

In parole povere, le statistiche possono essere riassunte come modelli adeguati ai dati e valutare quanto bene il modello descriva quei punti di dati ( Risultato = Modello + Errore ). Un modo per farlo è calcolare le somme di deviazioni o residui (res) dal modello:

reS=Σ(Xio-X¯)

Molti calcoli statistici si basano su questo, incl. il coefficiente di correlazione (vedi sotto).

Ecco un set di dati di esempio creato in R(i residui sono indicati come linee rosse e i loro valori sono aggiunti accanto a loro):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

inserisci qui la descrizione dell'immagine

X=11Y=5.4SS

SS=Σ(Xio-X¯)(Xio-X¯)=Σ(Xio-X¯)2

n-1S2

S2=SSn-1=Σ(Xio-X¯)(Xio-X¯)n-1=Σ(Xio-X¯)2n-1

Per comodità, è possibile prendere la radice quadrata della varianza del campione, nota come deviazione standard del campione:

S=S2=SSn-1=Σ(Xio-X¯)2n-1

Ora, la covarianza valuta se due variabili sono correlate tra loro. Un valore positivo indica che quando una variabile si discosta dalla media, l'altra variabile si discosta nella stessa direzione.

covX,y=Σ(Xio-X¯)(yio-y¯)n-1

r

r=covX,ySXSy=Σ(X1-X¯)(yio-y¯)(n-1)SXSy

In questo caso, il coefficiente di correlazione di Pearson è r=0.87, che può essere considerata una forte correlazione (sebbene questa sia anche relativa a seconda del campo di studio). Per verificare ciò, ecco un altro grafico con Xsull'asse xe sull'asse Yy:

inserisci qui la descrizione dell'immagine

Per farla breve, sì, il tuo feeling è giusto ma spero che la mia risposta possa fornire un contesto.


1
Questo è super utile: nel tentativo di approfondire la mia comprensione, immagino che se non riesco a spiegarlo a sufficienza a qualcuno senza un background nelle statistiche, non lo capisco bene come pensavo.
Toof

8

Hai (quasi) ragione. La covarianza (e quindi anche la correlazione) può essere calcolata solo tra variabili numeriche. Ciò include variabili continue ma anche variabili numeriche discrete.

Le variabili categoriali potrebbero essere utilizzate per calcolare la correlazione solo dato un codice numerico utile per loro, ma questo non è probabile che ottenga un vantaggio pratico - forse potrebbe essere utile per alcune variabili categoriali su due livelli, ma è probabile che altri strumenti siano più adatti.


Per aggiungere al punto critico, il coefficiente di correlazione del momento del prodotto Pearson rappresenta il grado di una relazione lineare tra le due variabili. Misure non parametriche come il rho di Spearman o la tau di Kendall caratterizzano la tendenza che X e Y hanno per aumentare o diminuire insieme (comportarsi in modo simile a una relazione monotona che non deve necessariamente essere lineare.
Michael R. Chernick,

@Pere: cosa usiamo quando abbiamo due variabili continue ma solo una di esse è stocastica, ad esempio Ore esercitate vs. Peso.?
MSIS,

1
@MSIS - Questa dovrebbe essere una domanda diversa, ma la correlazione può essere usata anche se una variabile non è casuale.
Pere,

1
@Pere: ho chiesto, nel caso tu sia interessato: stats.stackexchange.com/questions/435257/…
MSIS

3

Non c'è assolutamente nulla di sbagliato nel calcolo delle correlazioni in cui una delle variabili è categorica. Una forte correlazione positiva implicherebbe che l'attivazione (o la disattivazione della variabile categoriale in base alla convenzione) provoca un aumento della risposta. Ad esempio, ciò potrebbe accadere quando si calcola una regressione logistica in cui le variabili sono categoriche: prevedere la possibilità di un attacco cardiaco date le comorbilità dei pazienti come il diabete e il bmi. In questo caso il BMI avrebbe una correlazione molto forte con gli attacchi di cuore. Concluderesti che non è utile?

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.