La correlazione o il coefficiente di determinazione si riferiscono alla percentuale di valori che cadono lungo una linea di regressione?


12

La correlazione, , è una misura dell'associazione lineare tra due variabili. Il coefficiente di determinazione, r ^ 2 , è una misura di quanta della variabilità in una variabile può essere "spiegata da" variazione nell'altra.rr2

Ad esempio, se r=0.8 è la correlazione tra due variabili, allora r2=0.64 . Quindi, il 64% della variabilità in uno può essere spiegato da differenze nell'altro. Giusto?

La mia domanda è, per l'esempio dichiarato, una delle seguenti affermazioni è corretta?

  1. Il 64% dei valori rientra lungo la linea di regressione
  2. L'80% dei valori rientra lungo la linea di regressione

Il termine "caduta" è impreciso. Sembra che almeno alcune risposte interpretino che si tratta di "porre esattamente" e che la risposta non è chiaramente (sebbene quell'idea potrebbe portare a una misura interessante di associazione lineare che potrebbe essere adatta in alcune situazioni particolari - ad esempio dove era una miscela di nessun rumore / errore per la maggior parte del tempo, e qualche errore di tanto in tanto, come in alcuni processi di contaminazione - e quindi si sarebbe stimata la proporzione di dati non contaminati). Se intendessi qualcosa di diverso da "giaceva esattamente su", avresti bisogno di specificare quale fosse quel significato.
Glen_b

Risposte:


8

La prima parte è sostanzialmente corretta, ma il 64% della variazione è spiegato dal modello. In una regressione lineare semplice: Y ~ X, se è .64 significa che il 64% della variazione in Y è determinato dalla relazione lineare tra Y e X. È possibile avere una relazione forte con molto bassa , se la relazione è fortemente non lineare.R 2R2R2

Per quanto riguarda le tue due domande numerate, nessuna delle due è corretta. In effetti, è possibile che nessuno dei punti possa trovarsi esattamente sulla linea di regressione. Questo non è ciò che viene misurato. Piuttosto, si tratta di quanto è vicino il punto medio alla linea. Se tutti o quasi tutti i punti sono vicini (anche se nessuno è esattamente sulla linea), allora sarà alto. Se la maggior parte dei punti è lontana dalla linea, sarà basso. Se la maggior parte dei punti sono vicini ma alcuni sono lontani, la regressione è errata (problema dei valori anomali). Anche altre cose possono andare storte.R 2R2R2

Inoltre, ho lasciato il concetto di "lontano" piuttosto vago. Questo dipenderà da quanto sono distanti le X. Rendere precise queste nozioni è parte di ciò che apprendi in un corso sulla regressione; Non ci entrerò qui.


Bene, questo mi ha chiarito molto! Grazie Mimshot e Peter Flom! Molto grato ad entrambi! :)
Bradex,

1
+1, buona risposta, ti dispiacerebbe aggiungere qualcosa del tipo "In effetti, [è possibile che] nessuno dei punti possa mentire ...". Inoltre, potrebbe valere la pena discutere che l'idea di quanto siano lontani i punti dalla linea è anche relativa alla diffusione delle X.
gung - Ripristina Monica

15

Hai ragione con la prima parte della tua dichiarazione. Il solito modo di interpretare il coefficiente di determinazione è come percentuale della variazione della variabile dipendente ( ) che siamo in grado di spiegare con le variabili esplicative. L'esatta interpretazione e derivazione del coefficiente di determinazione può essere trovata qui y V a r ( y ) R 2R2yVar(y)R2

http://economictheoryblog.com/2014/11/05/the-coefficient-of-determination-latex-r2/

Tuttavia, un'interpretazione molto meno nota del coefficiente di determinazione è interpretarla come Coefficiente di correlazione di Squared Pearson tra i valori osservati e i valori adattati . La prova che il coefficiente di determinazione è l'equivalente del coefficiente di correlazione di Squared Pearson tra i valori osservati e i valori adattati è disponibile qui y i y i y i y iR2yiy^iyiy^i

http://economictheoryblog.com/2014/11/05/proof/

A mio avviso, sono questi gli unici modi significativi di interpretare il coefficiente di determinazione . Ne consegue che le due dichiarazioni fatte non possono essere derivate da .R 2R2R2


2
Non sono sicuro che ci siano solo due modi per interpretare ( ci sono certamente più di due modi per interpretare ) ma la ragione che ne consegue che le due affermazioni fornite non possono essere derivate da è che sono false (per i motivi di @PeterFlom) piuttosto che nessun'altra interpretazione è possibile. Ma penso che altrimenti sia una bella risposta. r R 2R2rR2
Silverfish,

2
Nel caso in cui i collegamenti forniti diventino morti in futuro (linkrot è un problema eterno - preferiamo rendere le risposte autosufficienti se possibile, ma chiaramente questa domanda non richiede prove complete, quindi un collegamento è opportuno), abbiamo alcuni copertura della relazione tra e , qui , qui , qui e più geometricamente, qui . R 2Corr(y,y^)R2
Silverfish,

2

Niether 1 né 2 è corretto.

Supponiamo che tu stia cercando di prevedere un insieme di valori da un insieme di valori usando una regressione lineare. Il tuo modello èxyyxx

yi=b+mxi+ϵi

Dove è un po 'di rumore. significa che il 64% della varianza di può essere spiegato dalla variabilità in sotto il tuo modello. La varianza residua ( cioè la varianza inspiegabile) è 0,36. Cioè se:R 2 = .64 y xϵiN(0,σ2)R2=.64yx

y^i=b+mxi

Poi

10.64=0.36=var(yyy^y^)var(yy)
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.