Nella regressione lineare, spesso otteniamo più R e R quadrati. Quali sono le differenze tra loro?
Nella regressione lineare, spesso otteniamo più R e R quadrati. Quali sono le differenze tra loro?
Risposte:
La maiuscola (al contrario di r 2 ) dovrebbe generalmente essere la R 2 multipla in un modello di regressione multipla. Nella regressione lineare bivariata non ci sono più R e R 2 = r 2 . Quindi una differenza è l'applicabilità: "multiple R " implica più regressori, mentre " R 2 " non necessariamente.
Un'altra semplice differenza è l'interpretazione. Nella regressione multipla, la multipla è il coefficiente di correlazione multipla , mentre il suo quadrato è il coefficiente di determinazione . R può essere interpretato in qualche modo come un coefficiente di correlazione bivariata , la differenza principale è che la correlazione multipla è tra la variabile dipendente e una combinazione lineare dei predittori, non solo uno di essi, e non solo la media di quelle correlazioni bivariate. R 2 può essere interpretato come la percentuale di varianza nella variabile dipendente che può essere spiegata dai predittori ; come sopra, questo vale anche se esiste un solo predittore.
La R multipla in realtà può essere vista come la correlazione tra risposta e valori adattati. Come tale è sempre positivo. Multiple R-squared è la sua versione quadrata.
Permettetemi di illustrare usando un piccolo esempio:
set.seed(32)
n <- 100
x1 <- runif(n)
x2 <- runif(n)
y <- 4 + x1 - 2*x2 + rnorm(n)
fit <- lm(y ~ x1 + x2)
summary(fit) # Multiple R-squared: 0.2347
(R <- cor(y, fitted(fit))) # 0.4845068
R^2 # 0.2347469
Non c'è bisogno di fare grandi storie "multiple" o no. Questa formula si applica sempre, anche in un ambiente Anova. Nel caso in cui vi sia una sola covariabile , allora R con il segno della pendenza è uguale alla correlazione tra X e la risposta.
Spiego semplicemente ai miei studenti che:
la R multipla è pensata come il valore assoluto del coefficiente di correlazione (o il coefficiente di correlazione senza segno negativo)!
Il R-quadrato è semplicemente il quadrato del multiplo R. Può essere considerato come percentuale di variazione causata dalle variabili indipendenti
È facile comprendere il concetto e la differenza in questo modo.