Poco background
Sto lavorando sull'interpretazione dell'analisi di regressione, ma mi confondo molto sul significato di r, r al quadrato e deviazione standard residua. Conosco le definizioni:
caratterizzazioni
r misura la forza e la direzione di una relazione lineare tra due variabili su un diagramma a dispersione
R-quadrato è una misura statistica di quanto i dati sono vicini alla linea di regressione adattata.
La deviazione standard residua è un termine statistico utilizzato per descrivere la deviazione standard dei punti formati attorno a una funzione lineare ed è una stima dell'accuratezza della variabile dipendente da misurare. ( Non so quali siano le unità, qualsiasi informazione sulle unità qui sarebbe utile )
(fonti: qui )
Domanda
Sebbene io "comprenda" le caratterizzazioni, capisco come questi termini siano stati concepiti per trarre una conclusione sul set di dati. Inserirò un piccolo esempio qui, forse questo può servire da guida per rispondere alla mia domanda ( sentiti libero di usare un tuo esempio!)
Esempio
Questa non è una domanda su come fare, tuttavia ho cercato nel mio libro per ottenere un semplice esempio (l'attuale set di dati che sto analizzando è troppo complesso e grande per essere mostrato qui)
Venti trame, ciascuna di 10 x 4 metri, sono stati scelti casualmente in un grande campo di grano. Per ogni trama, sono state osservate la densità della pianta (numero di piante nella trama) e il peso medio della pannocchia (gm di grano per pannocchia). I risultati sono riportati nella seguente tabella:
(fonte: Statistica delle scienze della vita )
╔═══════════════╦════════════╦══╗
║ Platn density ║ Cob weight ║ ║
╠═══════════════╬════════════╬══╣
║ 137 ║ 212 ║ ║
║ 107 ║ 241 ║ ║
║ 132 ║ 215 ║ ║
║ 135 ║ 225 ║ ║
║ 115 ║ 250 ║ ║
║ 103 ║ 241 ║ ║
║ 102 ║ 237 ║ ║
║ 65 ║ 282 ║ ║
║ 149 ║ 206 ║ ║
║ 85 ║ 246 ║ ║
║ 173 ║ 194 ║ ║
║ 124 ║ 241 ║ ║
║ 157 ║ 196 ║ ║
║ 184 ║ 193 ║ ║
║ 112 ║ 224 ║ ║
║ 80 ║ 257 ║ ║
║ 165 ║ 200 ║ ║
║ 160 ║ 190 ║ ║
║ 157 ║ 208 ║ ║
║ 119 ║ 224 ║ ║
╚═══════════════╩════════════╩══╝
Per prima cosa realizzerò un diagramma a dispersione per visualizzare i dati: in questo
modo posso calcolare r, R 2 e la deviazione standard residua.
prima il test di correlazione:
Pearson's product-moment correlation
data: X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9770972 -0.8560421
sample estimates:
cor
-0.9417954
e in secondo luogo un sommario della linea di regressione:
Residuals:
Min 1Q Median 3Q Max
-11.666 -6.346 -1.439 5.049 16.496
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 316.37619 7.99950 39.55 < 2e-16 ***
X -0.72063 0.06063 -11.88 5.89e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared: 0.887, Adjusted R-squared: 0.8807
F-statistic: 141.3 on 1 and 18 DF, p-value: 5.889e-10
Quindi, in base a questo test: r = -0.9417954
, R-quadrato: 0.887
e errore standard residuo: 8.619
cosa ci dicono questi valori sul set di dati? (vedi domanda )