Un modulo online che sto studiando afferma che non si dovrebbe mai usare la correlazione di Pearson con i dati proporzionali. Perchè no?
Oppure, se a volte è OK o sempre OK, perché?
Un modulo online che sto studiando afferma che non si dovrebbe mai usare la correlazione di Pearson con i dati proporzionali. Perchè no?
Oppure, se a volte è OK o sempre OK, perché?
Risposte:
Questo è un caso in cui diverse variabili si sommano a 1, in ciascuna osservazione. La mia risposta sarà a livello di intuizione; questo è intenzionale (e inoltre, non sono un esperto di dati compositivi).
Cerchiamo di avere variabili (quindi zero correlate) valutate positivamente che riassumiamo e ricalcoliamo come proporzioni di tale somma. Poi,
each V summing to 1 ( 100%)
Mi scusi? Non ti ho capito. Non ho alcun vincolo sulla singola V, essendo solo una frazione. Tuttavia, il vincolo iniziale era che il mio esempio presuppone zero correlazioni prima di trasformare V in frazioni.
Il collegamento video del tuo commento imposta il contesto su quello delle composizioni, che possono anche essere chiamate miscele. In questi casi, la somma della proporzione di ciascun componente si somma a 1. Ad esempio, l'aria è 78% di azoto, 21% di ossigeno e 1% di altro (il totale è 100%). Dato che la quantità di un componente è completamente determinata dagli altri, ogni due componenti avrà una perfetta relazione multi-lineare. Per esempio, abbiamo:
allora:
Quindi, se conosci due componenti, il terzo è immediatamente noto.
In generale, il vincolo sulle miscele è
È possibile calcolare una correlazione tra due componenti, ma non è informativo , poiché sono sempre correlati. Puoi leggere di più sull'analisi della composizione in Analisi dei dati misurati come composizione proporzionale .
È possibile utilizzare la correlazione quando i dati relativi alle proporzioni provengono da domini diversi. Supponi che la tua risposta sia una frazione di pixel morti su uno schermo LCD. Potresti provare a correlarlo, per esempio, alla frazione di elio utilizzata in una fase di elaborazione chimica dello schermo.
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship
non è chiaro. Puoi espanderlo?
Questa è una domanda profonda, con alcune sottigliezze che devono essere dichiarate. Farò del mio meglio, ma anche se ho pubblicato su questo argomento ( Proporzionalità: un'alternativa valida alla correlazione per i dati relativi ) Sono sempre pronto a essere sorpreso da nuove intuizioni sull'analisi dei dati contenenti solo informazioni relative.
Come hanno sottolineato i contributori di questo thread, la correlazione è nota (in alcuni ambienti) per essere insignificante quando applicata ai dati compositivi che si presentano quando un insieme di componenti è costretto ad aggiungere una costante (come vediamo con proporzioni, percentuali, parti per milione, ecc.).
Karl Pearson ha coniato il termine correlazione spuria con questo in mente. (Nota: il famoso sito di correlazione spuria di Tyler Vigen non riguarda tanto la correlazione spuria quanto la fallacia della " correlazione implica causalità ").
Sezione 1.7 di Aitchison (2003) Una guida concisa all'analisi dei dati composizionali fornisce un classico esempio del perché la correlazione è una misura inappropriata dell'associazione per i dati composizionali (per comodità, citata in queste Informazioni Supplementari .
I dati composizionali sorgono non solo quando un insieme di componenti non negativi viene sommato a una costante; si dice che i dati sono compositivi ogni volta che trasportano solo informazioni relative.
Penso che il problema principale con la correlazione dei dati che trasportano solo informazioni relative sia nell'interpretazione del risultato. Questo è un problema che possiamo illustrare con una singola variabile; diciamo "ciambelle prodotte per dollaro di PIL" in tutte le nazioni del mondo. Se il valore di una nazione è superiore a un altro, è perché
...chi puo 'dirlo?
Naturalmente, come le persone osservano su questo thread, si possono calcolare le correlazioni di questo tipo di variabili come variabili descrittive. Ma cosa significano tali correlazioni?
Ho avuto la stessa domanda. Ho trovato utile questo riferimento su biorxiv:
Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"Proporzionalità: una valida alternativa alla correlazione per i dati relativi"
Nelle informazioni di supporto di questo documento (Lovell, David, et al.; Doi: dx.doi.org/10.1101/008417), gli autori menzionano che le correlazioni tra abbondanze relative non forniscono alcuna informazione in alcuni casi. Danno un esempio delle abbondanze relative di due espressioni di mRNA. Nella Figura S2, le abbondanze relative dei due diversi mRNA sono perfettamente correlate negativamente, anche se la correlazione di questi due mRNA in valori assoluti non è negativamente correlata (punti verdi e punti viola).
Forse potrebbe aiutarti.