Perché non è corretto eseguire una correlazione di Pearson su dati proporzionali?


10

Un modulo online che sto studiando afferma che non si dovrebbe mai usare la correlazione di Pearson con i dati proporzionali. Perchè no?

Oppure, se a volte è OK o sempre OK, perché?


3
Cosa dice questo e in quale contesto? "Mai" sembra troppo forte a meno che non stiano parlando di una situazione molto limitata. Può darsi che chiunque l'abbia scritto sia semplicemente sbagliato, ma senza contesto come possiamo indovinarlo?
Glen_b

2
Il modulo online è proprietario e non riesco a collegarlo. Tuttavia, ho trovato un video che afferma la stessa cosa: australianbioinformatics.net/the-pipeline/2013/3/19/… . Sia il modulo che ho visto sia questo video indicano che non esistono contesti in cui le proporzioni correlate siano accettabili.
user1205901 - Ripristina Monica

4
"Mai" è troppo forte. Ci sono ragioni per essere cauti nell'interpretare i coefficienti di correlazione che coinvolgono le proporzioni, specialmente quelli basati su conteggi piccoli. Ma la stessa analisi a supporto di tali ragioni mostra anche che quando le proporzioni si basano su conteggi elevati e le proporzioni sono "sufficientemente lontane" da o , i coefficienti di correlazione non sono problematici. Inoltre, si può sempre riportare un coefficiente di correlazione per qualsiasi insieme di dati accoppiati (in cui entrambi i componenti presentano variazioni) come statistica riassuntiva (descrittiva). 101
whuber

Risposte:


6

Questo è un caso in cui diverse variabili si sommano a 1, in ciascuna osservazione. La mia risposta sarà a livello di intuizione; questo è intenzionale (e inoltre, non sono un esperto di dati compositivi).

Cerchiamo di avere variabili (quindi zero correlate) valutate positivamente che riassumiamo e ricalcoliamo come proporzioni di tale somma. Poi,

  • Nel caso di due variabili V1 V2 , se si dice che V1 varia liberamente, V2 non ha spazio per la libertà (poiché V1 + V2 = costante) ed è completamente fisso; maggiore è V1 minore è V2, minore è V1 maggiore è V2. La loro correlazione è ma ed è sempre così.-1
  • Nel caso di 3 variabili V1 V2 V3 , se si dice che V1 varia liberamente, allora V2 + V3 è fisso; vale a dire che all'interno (V2 + V3) ciascuna delle due variabili sono ancora parzialmente liberi: sono in media volte fissi ciascuno, piena fisso in totale. Quindi, se è preso una delle tre variabili come libero (come abbiamo preso V1), una delle due restanti è previsto 1 / 2 fisso. In modo che la correlazione tra loro sia - 0,5 . Questa è la correlazione attesa ; può variare da campione a campione.1/21/2-0.5
  • In caso di 4 variabili V1 V2 V3 V4 dallo stesso ragionamento si ha che, se prendiamo una qualsiasi delle quattro come libero allora una qualsiasi delle rimanenti dovrebbe essere fissa; così, l' atteso correlazione tra una qualsiasi coppia di quattro - uno come libera l'altro come 1 / 3 fisso - è - 0,333 .1/31/3-0.333
  • Man mano che aumenta il numero di variabili (inizialmente iid), la correlazione a coppie attesa cresce da negativa a e la sua variazione da campione a campione aumenta .0

OK, ma suppongo che l'interesse sia nelle coppie V1, V2, ogni V che somma a 1 (100%), ma nessun vincolo sulla V individuale, tranne che per essere una frazione.
Nick Cox,

each V summing to 1 ( 100%)Mi scusi? Non ti ho capito. Non ho alcun vincolo sulla singola V, essendo solo una frazione. Tuttavia, il vincolo iniziale era che il mio esempio presuppone zero correlazioni prima di trasformare V in frazioni.
ttnphns,

Intendevi che ogni V ha valori che sommano a 1 ("verticalmente")? No, intendevo "in senso orizzontale", tra le variabili. Ma sfortunatamente l'OP non ha chiarito il punto della loro domanda. Quindi l'ho preso come l'ho preso.
ttnphns,

Sì; cioè penso cosa significhi di solito qui, ma la domanda non è particolarmente chiara.
Nick Cox,

1
@ttnphns Ho visto una dichiarazione secondo cui non si dovrebbe mai fare una correlazione di Pearson due variabili misurate come proporzioni. Ho provato a rendere più chiaro modificando l'OP per evidenziare la parola "mai". Il video fa la stessa affermazione nel suo titolo ("Non correlare le proporzioni!"), Anche se ne discutono solo nel contesto di dati compositivi. Ho deliberatamente lasciato il contesto indefinito perché la mia fonte ha affermato che le correlazioni di Pearson non dovrebbero essere utilizzate su dati proporzionali in nessun contesto. Tuttavia, sembra che la risposta alla mia domanda sia: "Correlare le proporzioni va bene, tranne che in alcuni contesti".
user1205901 - Ripristina Monica

10

Il collegamento video del tuo commento imposta il contesto su quello delle composizioni, che possono anche essere chiamate miscele. In questi casi, la somma della proporzione di ciascun componente si somma a 1. Ad esempio, l'aria è 78% di azoto, 21% di ossigeno e 1% di altro (il totale è 100%). Dato che la quantità di un componente è completamente determinata dagli altri, ogni due componenti avrà una perfetta relazione multi-lineare. Per esempio, abbiamo:

X1+X2+X3=1

allora:

X1=1-X2-X3

X2=1-X1-X3

X3=1-X1-X2

Quindi, se conosci due componenti, il terzo è immediatamente noto.

In generale, il vincolo sulle miscele è

Σio=1qXio=1

Xio

È possibile calcolare una correlazione tra due componenti, ma non è informativo , poiché sono sempre correlati. Puoi leggere di più sull'analisi della composizione in Analisi dei dati misurati come composizione proporzionale .

È possibile utilizzare la correlazione quando i dati relativi alle proporzioni provengono da domini diversi. Supponi che la tua risposta sia una frazione di pixel morti su uno schermo LCD. Potresti provare a correlarlo, per esempio, alla frazione di elio utilizzata in una fase di elaborazione chimica dello schermo.


Vedo - avevo erroneamente pensato che le composizioni fossero solo un esempio. È quindi corretto affermare che le proporzioni correlate sono generalmente non problematiche a meno che non ci sia una situazione in cui le composizioni "forzano" una correlazione esistente?
user1205901 - Ripristina Monica

Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationshipnon è chiaro. Puoi espanderlo?
ttnphns,

Inoltre non capisco questa risposta. Nel tuo esempio a 3 variabili, ciascuna è "determinata" da DUE altre, ma la correlazione di Pearson analizza solo una variabile in relazione a UN'altra. Quindi, ad esempio, se si guarda azoto contro ossigeno si potrebbe avere un set di dati (azoto, ossigeno) [(0,78, 0,21), (0,20, 0,41), (0,44, 0,44)] e si potrebbe fare un coefficiente di correlazione valido calcolo su quei dati (e certamente non è co-lineare). Il coefficiente di correlazione di Pearson non sa né si preoccupa dell '"altro" lì ...
Jason C

3
Come una sorta di meta-commento, non mi aspetto di vedere materiale inaccessibile citato come autorità per qualsiasi punto statistico, non che tu stia proponendo di farlo. Quindi, è semplice a un livello: esiste una letteratura sull'analisi dei dati compositivi, che è dove cercare; Non sono un esperto, quindi non posso dire quale sia la più autorevole sulla correlazione, ma il mio istinto è che l'avvertimento è esagerato. L'uso descrittivo della correlazione può essere utile. È solo che le inferenze sono complicate dal vincolo sui totali.
Nick Cox,

Penso che la "frazione di pixel morti" andrebbe bene se stessimo raccogliendo misurazioni da schermi LCD che hanno lo stesso numero di pixel e la pressione del gas nel processo è rimasta costante. Ma una volta che inizi a consentire ai denominatori di queste proporzioni di cambiare, chi può dire qual è l'effetto dell'elio?
David Lovell,

5

Questa è una domanda profonda, con alcune sottigliezze che devono essere dichiarate. Farò del mio meglio, ma anche se ho pubblicato su questo argomento ( Proporzionalità: un'alternativa valida alla correlazione per i dati relativi ) Sono sempre pronto a essere sorpreso da nuove intuizioni sull'analisi dei dati contenenti solo informazioni relative.

Come hanno sottolineato i contributori di questo thread, la correlazione è nota (in alcuni ambienti) per essere insignificante quando applicata ai dati compositivi che si presentano quando un insieme di componenti è costretto ad aggiungere una costante (come vediamo con proporzioni, percentuali, parti per milione, ecc.).

Karl Pearson ha coniato il termine correlazione spuria con questo in mente. (Nota: il famoso sito di correlazione spuria di Tyler Vigen non riguarda tanto la correlazione spuria quanto la fallacia della " correlazione implica causalità ").

Sezione 1.7 di Aitchison (2003) Una guida concisa all'analisi dei dati composizionali fornisce un classico esempio del perché la correlazione è una misura inappropriata dell'associazione per i dati composizionali (per comodità, citata in queste Informazioni Supplementari .

I dati composizionali sorgono non solo quando un insieme di componenti non negativi viene sommato a una costante; si dice che i dati sono compositivi ogni volta che trasportano solo informazioni relative.

Penso che il problema principale con la correlazione dei dati che trasportano solo informazioni relative sia nell'interpretazione del risultato. Questo è un problema che possiamo illustrare con una singola variabile; diciamo "ciambelle prodotte per dollaro di PIL" in tutte le nazioni del mondo. Se il valore di una nazione è superiore a un altro, è perché

  • la loro produzione di ciambelle è più alta?
  • il loro PIL è inferiore?

...chi puo 'dirlo?

Naturalmente, come le persone osservano su questo thread, si possono calcolare le correlazioni di questo tipo di variabili come variabili descrittive. Ma cosa significano tali correlazioni?


3

Ho avuto la stessa domanda. Ho trovato utile questo riferimento su biorxiv:

Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"Proporzionalità: una valida alternativa alla correlazione per i dati relativi"

Nelle informazioni di supporto di questo documento (Lovell, David, et al.; Doi: dx.doi.org/10.1101/008417), gli autori menzionano che le correlazioni tra abbondanze relative non forniscono alcuna informazione in alcuni casi. Danno un esempio delle abbondanze relative di due espressioni di mRNA. Nella Figura S2, le abbondanze relative dei due diversi mRNA sono perfettamente correlate negativamente, anche se la correlazione di questi due mRNA in valori assoluti non è negativamente correlata (punti verdi e punti viola).

Forse potrebbe aiutarti.


2
Grazie per il tuo suggerimento Non l'ho chiarito. A supporto delle informazioni di questo documento (Lovell, David, et al.; Doi: dx.doi.org/10.1101/008417 ), gli autori menzionano che le correlazioni tra abbondanze relative non forniscono alcuna informazione in alcuni casi. Danno un esempio delle abbondanze relative di due espressioni di mRNA. Nella Figura S2, le abbondanze relative dei due diversi mRNA sono perfettamente negativamente correlate, anche se la correlazione di questi due mRNA in valori assoluti non è negativa (punti verdi e punti viola).
causa

@shu forse potresti dire perché questo articolo ti ha aiutato con un problema simile e riassumilo ..? Incollare il link non è una risposta, quindi ti preghiamo di elaborare un po 'di più. La ragione di ciò è anche perché i collegamenti muoiono e se vuoi che la tua risposta sia utile per qualcuno in futuro, dovresti renderla coerente. Naturalmente fornire riferimenti in aggiunta alla tua risposta è una buona abitudine.
Tim
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.