Coefficiente di Determinazione (

Voglio cogliere appieno la nozione di descrive la quantità di variazione tra le variabili. Ogni spiegazione web è un po 'meccanica e ottusa. Voglio "ottenere" il concetto, non solo usare meccanicamente i numeri. $r^2$

Ad esempio: ore studiate vs. punteggio del test

$r$ = .8

$r^2$ = .64

Che cosa significa questo?
Il 64% della variabilità dei punteggi dei test può essere spiegato in ore?
Come possiamo saperlo solo quadrando?

regression correlation variance

— JackOfAll
fonte

la tua domanda non riguarda R vs R-square (capisci che

) riguarda l'interpretazione di

. Si prega di riformulare il titolo.

{0.8}^{2} = 0.64

$0.8^2=0.64$

r^{2}

$r^2$

— Robin Girard,

una domanda simile: stats.stackexchange.com/questions/28139/…

— Abe

@amoeba ha accettato, ho tirato il tag.

— Brett

È necessario

per determinare il significato. Vedi anche stats.stackexchange.com/a/265924/99274 .

n

$n$

— Carl

Risposte:

Inizia con l'idea di base della variazione. Il tuo modello iniziale è la somma delle deviazioni quadrate dalla media. Il valore R ^ 2 è la proporzione di quella variazione che viene spiegata usando un modello alternativo. Ad esempio, R-quadrato ti dice quanta della variazione in Y puoi eliminare riassumendo le distanze al quadrato da una linea di regressione, piuttosto che la media.

Penso che ciò sia reso perfettamente chiaro se pensiamo al semplice problema di regressione tracciato. Considera un tipico diagramma a dispersione in cui hai un predittore X lungo l'asse orizzontale e una risposta Y lungo l'asse verticale.

La media è una linea orizzontale sul diagramma in cui Y è costante. La variazione totale in Y è la somma delle differenze al quadrato tra la media di Y e ogni singolo punto dati. È la distanza tra la linea media e ogni singolo punto quadrato e sommato.

È inoltre possibile calcolare un'altra misura di variabilità dopo aver ottenuto la linea di regressione dal modello. Questa è la differenza tra ciascun punto Y e la linea di regressione. Piuttosto che ogni (Y - la media) al quadrato otteniamo (Y - il punto sulla linea di regressione) al quadrato.

Se la linea di regressione è tutt'altro che orizzontale, otterremo una distanza totale inferiore quando utilizziamo questa linea di regressione adattata piuttosto che la media, ovvero c'è una variazione meno inspiegabile. Il rapporto tra la variazione aggiuntiva spiegata e la variazione originale è il tuo R ^ 2. È la proporzione della variazione originale nella tua risposta che viene spiegata adattando quella linea di regressione.

Ecco un codice R per un grafico con la media, la linea di regressione e i segmenti dalla linea di regressione a ciascun punto per aiutare a visualizzare:

library(ggplot2)
data(faithful)

plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean) 

linefit1 <- lm(eruptions ~ waiting, data = plotdata)

plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0

p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )  

p  + geom_point(shape = 1, size = 3) +
     geom_smooth(method=lm, se=FALSE) + 
     geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),  
                  data = plotdata) +
     theme(legend.position="none")  +
     geom_hline(yintercept = mean(plotdata$eruptions), size = 1)

— Brett
fonte

> Il rapporto tra la variazione spiegata e la variazione originale è il tuo R ^ 2 Vediamo se ho capito. Se la variazione originale dalla media è pari a 100 e la variazione di regressione è pari a 20, il rapporto = 20/100 = .2 Stai dicendo R ^ 2 = .2 b / c Il 20% della variazione media (rosso) viene preso in considerazione per dalla variazione spiegata (verde) (Nel caso di r = 1) Se la variazione originale è pari a 50 e la variazione di regressione è pari a 0, il rapporto = 0/50 = 0 = 0% della variazione dalla media ( rosso) è rappresentato dalla variazione spiegata (verde), mi aspetto che R ^ 2 sia 1, non 0.

— JackOfTutti

R ^ 2 = 1- (SSR / SST) o (SST-SSR) / SST. Quindi, nei tuoi esempi, R ^ 2 = .80 e 1.00. La differenza tra la linea di regressione e ogni punto è quella lasciata inspiegabile dall'adattamento. Il resto è la proporzione spiegata. Altrimenti, è esattamente vero.

— Brett

Ho modificato l'ultimo paragrafo per cercare di renderlo un po 'più chiaro. Concettualmente (e computazionalmente) tutto ciò che serve è lì. Potrebbe essere più chiaro aggiungere effettivamente la formula e fare riferimento a SSE SSR e SSR, ma poi stavo cercando di ottenerlo concettualmente

— Brett

vale a dire: R ^ 2 è la proporzione della variazione totale dalla media (SST) che è la differenza tra il valore di regressione atteso e il valore medio (SSE). Nel mio esempio di ore vs. punteggio, il valore di regressione sarebbe il punteggio del test previsto in base alla correlazione con le ore studiate. Qualsiasi ulteriore variazione da ciò è attribuita a SSR. Per un dato punto, le ore studiate variabile / regressione hanno spiegato x% della variazione totale dalla media (SST). Con un valore r elevato, "spiegato" è una grande percentuale di SST rispetto a SSR. Con un valore r basso, "spiegato" è una percentuale inferiore di SST rispetto a SSR.

— JackOfTutto il

@BrettMagill, penso che il collegamento all'immagine sia interrotto ...

— Garrett,

Una dimostrazione matematica della relazione tra i due è qui: correlazione di Pearson e analisi di regressione dei minimi quadrati .

~~Non sono sicuro che ci sia un'intuizione geometrica o di altro tipo che può essere offerta a parte la matematica, ma se posso pensarne una aggiornerò questa risposta.~~

Aggiornamento: Intuizione geometrica

$x$ $y$ $y$

$y = x\ \beta + \epsilon$

$y_1,y_2$ $x_1,x_2$

testo alternativo http://a.imageshack.us/img202/669/linearregression1.png

$\beta$ $x\ \beta$ $y$ $\beta$ $x$ $\hat{\beta}$ $\beta$ $y$ $\hat{y} = x\ \hat{\beta}$

$y = \hat{y} + \hat{\epsilon}$

$y$ $\hat{y}$ $\hat{\epsilon}$ $\hat{\beta}$

$\beta$ $x\ \beta$ $\hat{\epsilon}$

$y$ $y$ $x$ $y$ $y_1^2+y_2^2$ $y$ $\hat{y}$ $\hat{y}$

Con il teorema di Pitagora, abbiamo:

$y^2 = \hat{y}^2 + \hat{\epsilon}^2$

$x$ $\frac{\hat{y}^2}{y^2}$ $cos(\theta) = \frac{\hat{y}}{y}$

Pertanto, abbiamo la relazione richiesta:

$y$ $x$

Spero che sia d'aiuto.

Apprezzo il tuo tentativo di aiutare, ma sfortunatamente questo ha peggiorato le cose di 10 volte. Stai davvero introducendo la trigonometria per spiegare r ^ 2? Sei troppo intelligente per essere un buon insegnante!

— JackOfTutto il

Pensavo volessi sapere perché la correlazione ^ 2 = R ^ 2. In ogni caso, diversi modi di comprendere lo stesso concetto aiutano o almeno questa è la mia prospettiva.

L' applet Regression By Eye potrebbe essere utile se stai cercando di sviluppare un po 'di intuizione.

Ti consente di generare dati, quindi di indovinare un valore per R , che puoi confrontare con il valore effettivo.

— ars
fonte