Il modo migliore per comprendere questi termini è eseguire manualmente un calcolo di regressione. Ho scritto due risposte strettamente correlate ( qui e qui ), tuttavia potrebbero non aiutarti completamente a capire il tuo caso particolare. Ma leggili comunque. Forse ti aiuteranno anche a concettualizzare meglio questi termini.
In una regressione (o ANOVA), costruiamo un modello basato su un set di dati di esempio che ci consente di prevedere i risultati di una popolazione di interesse. Per fare ciò, i seguenti tre componenti vengono calcolati in una semplice regressione lineare da cui è possibile calcolare gli altri componenti, ad esempio i quadrati medi, il valore F, l' R2 (anche l' R2 regolato ) e l'errore standard residuo ( R SE ):
- somme totali di quadrati ( SSt o t a l )
- somme residue di quadrati ( SSr e s i du a l )
- somme modello di quadrati ( SSm o de l )
Ognuno di essi sta valutando quanto bene il modello descriva i dati e sia la somma delle distanze quadrate dai punti dati al modello adattato (illustrati come linee rosse nel diagramma sottostante).
La SSt o t a l valutare come le crisi medi dei dati. Perché la media? Perché la media è il modello più semplice che possiamo adattare e quindi serve come modello a cui viene confrontata la linea di regressione dei minimi quadrati. Questo diagramma che utilizza il cars
set di dati mostra che:
SSr e s i du a l
SSm o de lSSt o t a lSSr e s i du a l
Per rispondere alle tue domande, calcoliamo innanzitutto i termini che desideri comprendere a partire dal modello e dall'output come riferimento:
# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares
Le somme dei quadrati sono le distanze al quadrato dei singoli punti dati rispetto al modello:
# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model
I quadrati medi sono le somme dei quadrati mediati dai gradi di libertà:
# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1
# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model
Le mie risposte alle tue domande:
Q1:
- Questa è quindi effettivamente la distanza media dei valori osservati dalla linea lm?
R SEMSr e s i du a l
# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se
SSr e s i du a lMSr e s i du a l SSr e s i du a lR SErappresenta la distanza media dei dati osservati dal modello. Intuitivamente, anche questo ha perfettamente senso perché se la distanza è minore, anche il tuo modello si adatta meglio.
Q2:
- Ora mi sto confondendo perché se RSE ci dice fino a che punto i nostri punti osservati si discostano dalla linea di regressione, un RSE basso ci sta effettivamente dicendo "il tuo modello si adatta bene in base ai punti dati osservati" -> quindi quanto bene si adattano i nostri modelli , quindi qual è la differenza tra R al quadrato e RSE?
Ora il R2SSm o de lSSt o t a l
# R squared
r.sq <- ss.model/ss.total
r.sq
Il R2SSt o t a lSSm o de l
R SER2R SE
R2 d'altra parte ti dice quanta variazione è spiegata dal modello (cioè la linea di regressione) rispetto alla variazione che è stata spiegata dal solo mezzo (cioè il modello più semplice).
Q3:
- È vero che possiamo avere un valore F che indica una relazione forte che NON È LINEARE in modo che la nostra RSE sia alta e la nostra R al quadrato sia bassa
Così la F-valore sull'altro è calcolato come il quadrato medio del modello MSm o de l (o il segnale) diviso per MSr e s i du a l (rumore):
# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F
O in altre parole il F-value esprime la percentuale di miglioramento del modello (rispetto alla media) data la precisione del modello.
La tua terza domanda è un po 'difficile da capire, ma sono d'accordo con la citazione che hai fornito.