Cosa ci dice r, r al quadrato e deviazione standard residua su una relazione lineare?


13

Poco background
Sto lavorando sull'interpretazione dell'analisi di regressione, ma mi confondo molto sul significato di r, r al quadrato e deviazione standard residua. Conosco le definizioni:

caratterizzazioni

r misura la forza e la direzione di una relazione lineare tra due variabili su un diagramma a dispersione

R-quadrato è una misura statistica di quanto i dati sono vicini alla linea di regressione adattata.

La deviazione standard residua è un termine statistico utilizzato per descrivere la deviazione standard dei punti formati attorno a una funzione lineare ed è una stima dell'accuratezza della variabile dipendente da misurare. ( Non so quali siano le unità, qualsiasi informazione sulle unità qui sarebbe utile )

(fonti: qui )

Domanda
Sebbene io "comprenda" le caratterizzazioni, capisco come questi termini siano stati concepiti per trarre una conclusione sul set di dati. Inserirò un piccolo esempio qui, forse questo può servire da guida per rispondere alla mia domanda ( sentiti libero di usare un tuo esempio!)

Esempio
Questa non è una domanda su come fare, tuttavia ho cercato nel mio libro per ottenere un semplice esempio (l'attuale set di dati che sto analizzando è troppo complesso e grande per essere mostrato qui)

Venti trame, ciascuna di 10 x 4 metri, sono stati scelti casualmente in un grande campo di grano. Per ogni trama, sono state osservate la densità della pianta (numero di piante nella trama) e il peso medio della pannocchia (gm di grano per pannocchia). I risultati sono riportati nella seguente tabella:
(fonte: Statistica delle scienze della vita )

╔═══════════════╦════════════╦══╗
 Platn density  Cob weight   
╠═══════════════╬════════════╬══╣
           137         212   
           107         241   
           132         215   
           135         225   
           115         250   
           103         241   
           102         237   
            65         282   
           149         206   
            85         246   
           173         194   
           124         241   
           157         196   
           184         193   
           112         224   
            80         257   
           165         200   
           160         190   
           157         208   
           119         224   
╚═══════════════╩════════════╩══╝

Per prima cosa realizzerò un diagramma a dispersione per visualizzare i dati: in questo modo posso calcolare r, R 2 e la deviazione standard residua. prima il test di correlazione:
inserisci qui la descrizione dell'immagine

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

e in secondo luogo un sommario della linea di regressione:

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

Quindi, in base a questo test: r = -0.9417954, R-quadrato: 0.887e errore standard residuo: 8.619 cosa ci dicono questi valori sul set di dati? (vedi domanda )


3
Vale la pena notare che quelle che chiamate "definizioni" sono solo caratterizzazioni casuali, e come tali possono essere fuorvianti, a seconda di come vengono interpretate e applicate. Le definizioni attuali sono quantitative e precise.
whuber

Grazie per averlo sottolineato, le fonti che ho usato hanno chiamato queste definizioni, tuttavia senza "caratterizzazioni" contestuali probabilmente sarebbe meglio, lo cambierò!
King Boomie,

Pezzi: il quadrato R è di solito spiegato come la proporzione di varianza spiegata dai predittori, così vicina a 1 è buona. Le unità di deviazione standard residua dovrebbero essere le unità dei tuoi residui, che sono le unità della tua variabile di risposta.
Alistaire

Grazie! @alistaire in realtà questo ha senso hahah perché confrontiamo il valore y dei punti Original con i valori y dei punti previsti
KingBoomie

Dovresti tracciare i residui contro previsti come suggerito da David nella sua risposta.
HelloWorld,

Risposte:


5

Queste statistiche possono dirti se esiste una componente lineare nella relazione, ma non molto se la relazione è strettamente lineare. Una relazione con un piccolo componente quadratico può avere un r ^ 2 di 0,99. Un diagramma di residui in funzione della previsione può rivelare. Nell'esperimento di Galileo qui https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html la correlazione è molto alta ma la relazione è chiaramente non lineare.


5

Ecco un secondo tentativo di risposta dopo aver ricevuto feedback su problemi con la mia prima risposta.

r|r||r|

R2r2R2

rR2rrR2rR2

L'errore standard residuo è la deviazione standard per una distribuzione normale, centrata sulla linea di regressione prevista, che rappresenta la distribuzione dei valori effettivamente osservati. In altre parole, se dovessimo misurare solo la densità della pianta per un nuovo diagramma, possiamo prevedere il peso della pannocchia usando i coefficienti del modello montato, questa è la media di quella distribuzione. L'RSE è la deviazione standard di quella distribuzione e quindi una misura su quanto prevediamo che i pesi di pannocchia effettivamente osservati si discostino dai valori previsti dal modello. Un RSE di ~ 8 in questo caso deve essere confrontato con la deviazione standard del campione del peso della pannocchia, ma più piccolo è il RSE rispetto al campione SD, più il modello è predittivo o adeguato.


@whuber Non ci sono ancora altre risposte a questa domanda, quindi ho deciso di provarlo. Invece di deselezionare la vecchia risposta, con tutto il bagaglio ho deciso di scriverne una nuova (ad eccezione del paragrafo RSE che ho copiato). Se hai tempo, ti sarei davvero grato per qualsiasi feedback su questo secondo tentativo. Il mio approccio abituale per la valutazione del modello è la convalida incrociata e gli insiemi di controllo, poiché lo scopo è di solito la previsione, ma mi piacerebbe davvero capire queste metriche e sono piuttosto comuni.
Johan Falkenjack il

2
|r|rρ
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.