Relazione tra


40

Diciamo che ho due array monodimensionali, a1 e a2 . Ciascuno contiene 100 punti dati. a1 sono i dati effettivi e a2 è la previsione del modello. In questo caso, il valore di R2 sarebbe:

R2=1SSresSStot  (1).
Nel frattempo, questo sarebbe uguale al valore quadrato del coefficiente di correlazione,
R2=(Correlation Coefficient)2(2).
Ora se cambio i due:a2 sono i dati effettivi ea1 è la previsione del modello. Dall'equazione(2) , poiché al coefficiente di correlazione non importa quale viene per primo, ilvalore diR2 sarebbe lo stesso. Tuttavia, dall'equazione(1) ,SStot=i(yiy¯)2 , ilvalore diR2 cambierà, poichéSStot è cambiato se si passaydaa1 ada2 ; nel frattempo,SSres=i(fiy¯)2 non cambia.

La mia domanda è: come possono contraddirsi a vicenda?

Modifica :

  1. Me lo stavo chiedendo, sarà la relazione in Eq. (2) resta valido, se non si tratta di una semplice regressione lineare, ovvero la relazione tra IV e DV non è lineare (potrebbe essere esponenziale / log)?

  2. Questa relazione rimarrà comunque valida se la somma degli errori di predizione non è uguale a zero?


Ho trovato questa presentazione molto utile e non tecnica: google.com/…
ihadanny

Risposte:


19

Questo è vero che cambierà ... ma ti sei dimenticato il fatto che la somma di regressione dei quadrati dei cambierà pure. Quindi consideriamo il modello di regressione semplice e denotiamo il coefficiente di correlazione come r 2 x y = S 2 x ySStot , dove ho usato il sottoindicexyper sottolineare il fatto chexè la variabile indipendente eyè la variabile dipendente. Ovviamente,r2 x y rimane invariato se si scambiaxcony. Possiamo facilmente mostrare cheSSRxy=Syy(R2 x y ), doveSSRxyè la somma della regressione di quadrati e rxy2=Sxy2SxxSyyxyxyrxy2xySSRxy=Syy(Rxy2)SSRxy è la somma totale dei quadrati dove xSyyx è indipendente e è variabile dipendente. Pertanto: R 2 x y = S S R x yydoveSSExyè la somma residua corrispondente di quadrati in cuixè indipendente eyè variabile dipendente. Si noti che in questo caso, abbiamoSSExy=b2 x y Sxxconb=

Rxy2=SSRxySyy=SyySSExySyy,
SSExyxySSExy=bxy2Sxx (Vedi ad esempio Eq. (34) - (41)qui.) Pertanto:R2 x y =Syy- S 2 x yb=SxySxxChiaramente sopra equazione è simmetrica rispetto adxedy. In altre parole:R2 x y =R2 y x . Per riassumere quando si cambiaxconynel modello di regressione semplice, sia numeratore che denominatore diR2 x y =SSRxy
Rxy2=SyySxy2Sxx2.SxxSyy=SyySxxSxy2Sxx.Syy.
xy
Rxy2=Ryx2.
xy cambierà in modo cheR2 x y =R2 y x .Rxy2=SSRxySyyRxy2=Ryx2.

Grazie mille! Ho notato che questo potrebbe essere dove mi sbagliavo: vale solo se 1) la previsione del modello è una linea retta e 2) la media della previsione del modello è uguale alla media dei punti del campione. Se la relazione tra DV e IV non è una linea retta o la somma degli errori di predizione è diversa da zero, la relazione non sarà valida. La prego di farmi sapere se questo è corretto? R2=r2
Shawn Wang,

1
Ci ho pensato perché hai usato , mentre stavo usando l'equazione che ho pubblicato nell'OP. Queste due equazioni sono equivalenti tra loro solo quando la somma degli errori di predizione è zero. Quindi, nel mio PO, S S r e s = i ( f i - ˉ y ) 2 non cambia mentre S S t oR2=SSreg/SStotSSres=i(fiy¯)2 cambiato, e quindi la R 2SStotR2 è cambiato.
Shawn Wang

Ti capita di avere un riferimento su come risolverlo per il caso generale dei gaussiani p-variate?
jmb,

26

R2yiy^i.

The complete proof of how to derive the coefficient of determination R2 from the Squared Pearson Correlation Coefficient between the observed values yi and the fitted values y^i can be found under the following link:

http://economictheoryblog.wordpress.com/2014/11/05/proof/

In my eyes it should be pretty easy to understand, just follow the single steps. I guess looking at it is essential to understand how the realtionship between the two key figures actually works.


6

In case of simple linear regression with only one predictor R2=r2=Corr(x,y)2. But in multiple linear regression with more than one predictors the concept of correlation between the predictors and the response does not extend automatically. The formula gets:

R2=Corr(yestimated,yobserved)2

The square of the correlation between the response and the fitted linear model.


5

@Stat has provided a detailed answer. In my short answer I'll show briefly in somewhat different way what is the similarity and difference between r and r2.

r is the standardized regression coefficient beta of Y by X or of X by Y and as such, it is a measure of the (mutual) effect size. Which is most clearly seen when the variables are dichotomous. Then r, for example, .30 means that 30% of cases will change its value to opposite in one variable when the other variable changes its value to the opposite.

r2, on the other hand, is the expression of the proportion of co-variability in the total variability: r2=(covσxσy)2=|cov|σx2|cov|σy2. Note that this is a product of two proportions, or, more precise to say, two ratios (a ratio can be >1). If loosely imply any proportion or ratio to be a quasi-probability or propensity, then r2 expresses "joint probability (propensity)". Another and as valid expression for the joint product of two proportions (or ratios) would be their geometric mean, propprop, which is very r.

(The two ratios are multiplicative, not additive, to stress the idea that they collaborate and cannot compensate for each other, in their teamwork. They have to be multiplicative because the magnitude of cov is dependent on both magnitudes σx2 and σy2 and, conformably, cov has to be divided two times in once - in order to convert itself to a proper "proportion of the shared variance". But cov, the "cross-variance", shares the same measurement units with both σx2 and σy2, the "self-variances", and not with σxσy, the "hybrid variance"; that is why r2, not r, is more adequate as the "proportion of shared variance".)

So, you see that meaning of r and r2 as a measure of the quantity of the association is different (both meanings valid), but still these coefficients in no way contradict each other. And both are the same whether you predict Y~X or X~Y.


Thank you so much! I am starting to wonder whether I am using the wrong definition, that two definitions of R2 co-exist and they are not equivalent to each other. Could you please help me in the question that - if I am thinking about more generalized cases where the model is not a simple linear regression (could be exponential) - is my equation in the OP still correct for calculating R2? Is this a different quantity, also called R2, but different from the "coefficient of determination"?
Shawn Wang

Coefficient of determination or R-square is a wider concept than r^2 which is only about simple linear regression. Please read wikipedia en.wikipedia.org/wiki/Coefficient_of_determination.
ttnphns

Thanks again! That I do understand. My question is: for more complex regressions, can I still square the r value to get the coefficient of determination?
Shawn Wang

1
For a "complex regression", you get R-square, but you don't get r.
ttnphns

1

I think you might be mistaken. If R2=r2, I assume you have a bivariate model: one DV, one IV. I don't think R2 will change if you swap these, nor if you replace the IV with the predictions of the DV that are based on the IV. Here's code for a demonstration in R:

x=rnorm(1000); y=rnorm(1000)              # store random data
summary(lm(y~x))                          # fit a linear regression model (a)
summary(lm(x~y))                          # swap variables and fit the opposite model (b)
z=lm(y~x)$fitted.values; summary(lm(y~z)) # substitute predictions for IV in model (a)

If you aren't working with a bivariate model, your choice of DV will affect R2...unless your variables are all identically correlated, I suppose, but this isn't much of an exception. If all the variables have identical strengths of correlation and also share the same portions of the DV's variance (e.g. [or maybe "i.e."], if some of the variables are completely identical), you could just reduce this to a bivariate model without losing any information. Whether you do or don't, R2 still wouldn't change.

In all other cases I can think of with more than two variables, R2r2 where R2 is the coefficient of determination and r is a bivariate correlation coefficient of any kind (not necessarily Pearson's; e.g., possibly also a Spearman's ρ).


1
I recently did Theil linear regression then calculated R2=0.1468 and SSR>SST. I have seen Excel produce R2-values as well, and at first I laughed at it, then slowly came understanding and it ceased to be funny. So is the general definition of R2 correct? What gives.
Carl
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.