C'è qualche differenza tra e ?


22

Il coefficiente di correlazione è solitamente scritto con una maiuscola ma a volte no. Mi chiedo se c'è davvero una differenza tra e ? può significare qualcos'altro oltre a un coefficiente di correlazione?r 2 R 2 rRr2R2r


8
Sono sorpreso che questa domanda sia stata sottovalutata: è chiara e ben specificata e copre un problema in cui la terminologia viene utilizzata in modi incoerenti. Peggio ancora, perché fa distinzione tra maiuscole e minuscole, è un argomento difficile da cercare per chiarimenti! A parte il fatto che può essere usata per due cose molto diverse, la situazione diventa ancora più grave se si considera modelli senza termini intercettare, quando , il coefficiente di determinazione, non è nemmeno uguale al quadrato di . Non è una sorpresa che le persone possano trovare confusa la notazione. R 2 RrR2R
Silverfish,

Risposte:


18

La notazione in merito sembra variare leggermente.

R viene utilizzato nel contesto della correlazione multipla e viene chiamato "coefficiente di correlazione multipla". È la correlazione tra le risposte osservate e la adattata dal modello. Il è generalmente previsto da diverse variabili predittive , ad esempio dove sono stati stimati i coefficienti di intercettazione e pendenza . Si noti che .Y Y X i Y = β 0 + β 1 X 1 + β 2 X 2 β i 0 R 1YY^Y^XiY^=β^0+β^1X1+β^2X2β^i0R1

Il simbolo è il "coefficiente di correlazione del campione" utilizzato nel caso bivariato - ovvero ci sono due variabili, e - e di solito indica la correlazione tra e nel campione. Si può trattare questa come una stima della correlazione tra le due variabili nella popolazione più ampia. Per correlare due variabili non è necessario identificare quale sia il predittore e quale sia la risposta. In effetti se trovassi la correlazione tra e sarebbe la stessa della correlazione tra e , perché la correlazione è simmetricaX Y X Y ρ Y X X Y - 1 r 1 r r < 0rXYXYρYXXY. Si noti che quando il simbolo viene utilizzato in questo modo, con (correlazione negativa) se le due variabili hanno una relazione che diminuisce linearmente (mentre una sale, l'altra tende a scendere).1r1rr<0

Il punto in cui la notazione diventa incoerente è quando ci sono due variabili, e , e viene eseguita una semplice regressione lineare . Si tratta di identificare una variabile, , come variabile di risposta, e l'altra, , come variabile predittore e montaggio del modello . Alcune persone usano anche il simbolo per indicare la correlazione tra e mentre altri (per coerenza con regressione multipla) scrivonoY Y X Y = β 0 + β 1 X r Y Y R r X Y Y Y X Y r r R Y YXYYXY^=β^0+β^1XrYY^R. Si noti che la correlazione tra risposte osservate e adattate è necessariamente maggiore o uguale a zero. Questo è uno dei motivi per cui non mi piace l'uso del simbolo in questo caso: la correlazione tra e potrebbe essere negativa, mentre la correlazione tra e è positiva (in realtà sarà semplicemente il modulo di la correlazione tra e ) ma entrambi potrebbero essere scritti con il simbolo . Ho visto alcuni libri di testo e articoli di Wikipedia passare in modo quasi intercambiabile tra i due significati di e l'ho trovato inutilmente confuso. Preferisco usare il simbolorXYYY^XYrrRper la correlazione tra e nella regressione sia singola che multipla.YY^

Sia nella regressione semplice che multipla, quindi fintanto che nel modello è presente un termine di intercettazione, la tra e è semplicemente la radice quadrata del coefficiente di determinazione (spesso chiamato "percentuale di varianza spiegata " o simili). Nel caso specifico della regressione lineare semplice, quindi dove sto scrivendo per la correlazione tra e , e potrebbero rappresentare il coefficiente di determinazione della regressione o il quadrato della correlazione tra e . DaRYY^R2R2=r2rXYR2YY^1r1 e , ciò significa che. Quindi, ad esempio, se si ottiene una correlazione tra e di la correlazione tra e il adattato dalla semplice regressione lineare sarebbe e il coefficiente di determinazione sarebbe ovvero quasi la metà della variazione della risposta sarebbe spiegata dal tuo modello.0R1R=|r|XYr=0.7YY^Y=β^0+β^1XR=0.7R2=0.49

Se nel modello non è stato incluso alcun termine di intercettazione, il simbolo è ambiguo. Di solito è inteso come coefficiente di determinazione, ma questo sarà generalmente calcolato in modo diverso dal solito , quindi fai attenzione quando leggi l'output dal tuo software statistico. Quindi non è più lo stesso quadrato della correlazione multipla , né nel caso bivariato sarà uguale a !R2Rr2

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.