Perché R's lm () restituisce stime di coefficienti diverse rispetto al mio libro di testo?

sfondo

Sto cercando di capire il primo esempio in un corso sui modelli di adattamento (quindi questo può sembrare ridicolmente semplice). Ho fatto i calcoli a mano e corrispondono all'esempio, ma quando li ripeto in R, i coefficienti del modello sono disattivati. Ho pensato che la differenza potrebbe essere dovuta al libro di testo che utilizza la varianza della popolazione ( $\sigma^2$ ) mentre R potrebbe usare la varianza del campione ( $S^2$ ), ma non riesco a vedere dove vengano utilizzati nei calcoli. Ad esempio, se lm()utilizza var()da qualche parte, la sezione della guida sulle var()note:

Viene usato il denominatore n - 1 che fornisce uno stimatore imparziale della (co) varianza per le osservazioni iid.

Ho esaminato il codice per entrambi lm()e lm.fit()e nessuno dei due ne fa uso var(), ma lm.fit()passa quei dati al codice C compilato ( z <- .Call(C_Cdqrls, x, y, tol, FALSE)) a cui non ho accesso.

Domanda

Qualcuno può spiegare perché R sta dando risultati diversi? Anche se esiste una differenza nell'uso della varianza tra campione e popolazione, perché le stime dei coefficienti differiscono?

Dati

Adatta una linea per prevedere il numero di scarpe dalla classe a scuola.

# model data
mod.dat <- read.table(
    text = 'grade shoe
                1    1
                2    5
                4    9'
    , header = T);

# mean
mod.mu  <- mean(mod.dat$shoe);
# variability 
mod.var <- sum((mod.dat$shoe - mod.mu)^2)

# model coefficients from textbook
mod.m  <- 8/3;
mod.b  <- -1;

# predicted values  ( 1.666667 4.333333 9.666667 )
mod.man.pred       <- mod.dat$grade * mod.m + mod.b;
# residuals         ( -0.6666667  0.6666667 -0.6666667 )
mod.man.resid      <- (mod.dat$shoe - mod.man.pred)
# residual variance ( 1.333333 )
mod.man.unexpl.var <- sum(mod.man.resid^2);
# r^2               ( 0.9583333 )
mod.man.expl.var   <- 1 - mod.man.unexpl.var / mod.var;

# but lm() gives different results:
summary(lm(shoe ~ grade, data = mod.dat))

Call:
lm(formula = shoe ~ grade, data = mod.dat)

Residuals:
      1       2       3 
-0.5714  0.8571 -0.2857 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  -1.0000     1.3093  -0.764    0.585
grade         2.5714     0.4949   5.196    0.121

Residual standard error: 1.069 on 1 degrees of freedom
Multiple R-squared:  0.9643,    Adjusted R-squared:  0.9286 
F-statistic:    27 on 1 and 1 DF,  p-value: 0.121

modificare

Come ha dimostrato Ben Bolker , a volte sembra che gli insegnanti commettano errori. Sembra che i calcoli R siano corretti. Morale della storia: non credere a qualcosa solo perché un insegnante dice che è vero. Verifica tu stesso!

— post-hoc
fonte

Doppio controllo mod.m=8/3. Perché se si imposta mod.m=2.5714, allora sembrano identici.

— Stat,

I coefficienti mod.m = 8/3 e mod.b = -1 non vengono calcolati da nessuna parte nei commenti, per quanto ho capito, quindi non è ovvio. Come commenta @Stat sopra, l'errore sembra essere nel modulo di elaborazione mod.m.

— Juho Kokkala,

È importante tenere presente che chiunque può commettere errori - il tuo insegnante, tu, i rispondenti qui, i programmatori R - chiunque. Quindi, quando si cerca di capire dove possono trovarsi gli errori quando le cose non sono d'accordo, considerare quante altre persone stanno controllando ogni cosa. Nel caso della lmfunzione in R, letteralmente decine di migliaia di persone hanno verificato i risultati confrontandoli con altre cose, e l'output di lmviene verificato con esempi noti ogni volta che qualcosa cambia nel codice. Con le risposte qui, è probabile che almeno alcune persone controllino (la tua domanda è stata esaminata 29 volte).

— Glen_b

@Glen_b Il tuo punto è in realtà il motivo per cui sono venuto qui per chiedere. Non riuscivo a capire come R potesse sbagliarsi su un simile calcolo di base, ma non riuscivo a capire perché fossero diversi. Evento di curiosare attorno al codice sorgente. Ma alla fine, l'errore era nell'ultimo posto che pensavo di guardare, soprattutto perché la parte del calcolo è ai limiti della mia conoscenza. Ho imparato molto dalla risposta però!

— post-hoc,

Sì, è importante cercare di capire perché differiscono; ha senso chiedere qui se non riesci a risolverlo. Stavo cercando di suggerire perché l'ultimo posto che hai preso in considerazione potrebbe essere stato invece uno dei primi posti in cui cercare. Sono stato colto da modifiche "semplificate" dell'ultimo minuto agli esempi in una o due occasioni.

— Glen_b

Sembra che l'autore abbia fatto un errore matematico da qualche parte.

Se si espande la deviazione della somma dei quadrati

S = ((B + m) - 1)^{2} + ((B + 2 m) - 5)^{2} + ((B + 4 m) - 9)^{2}

$S = ((b+m)-1)^2+ ((b+2m)-5)^2 + ((b+4m)-9)^2$

\begin{aligned} S = & B^{2} + 2 B m + m^{2} + 1 - 2 B - 2 m \\ + & B^{2} + 4 B m + 4 m^{2} + 25 - 10 B - 20 m \\ + & B^{2} + 8 B m + 16 m^{2} + 81 - 18 B - 72 m \end{aligned}

$\begin{split} S = & b^2+2 b m+ m^2 + 1 - 2 b - 2 m \\ + & b^2+4 b m+ 4 m^2 + 25 - 10 b -20 m \\ + & b^2+8 b m+16 m^2 + 81 - 18 b -72 m \end{split}$

3 B^{2} + 14 B m + 21 m^{2} + 107 - 30 B - 94 m

$3 b^2 + 14 b m + 21 m^2 + 107 - 30 b - 94 m$

$S$ $b$ $m$

d S / d B = 6 B + 14 m - 30 \to 3 B + 7 m - 15 = 0

$dS/db = 6 b + 14 m -30 \to 3 b +7 m-15 = 0$

d S / d m = 14 B + 42 m - 94 \to 7 B + 21 m - 47 = 0

$dS/dm = 14 b +42 m -94 \to 7 b + 21 m -47 = 0$

Risolvere

\begin{aligned} B & = (15 - 7 m) / 3 \\ 0 & = 7 (15 - 7 m) / 3 + 21 m - 47 \\ 47 - 35 & = (- 49 / 3 + 21) m \\ m & = (47 - 35) / (21 - 49 / 3) = 18 / 7 \end{aligned}

$\begin{split} b & = (15-7m)/3 \\ 0 & = 7 (15-7m)/3 + 21 m-47 \\ 47 - 35 & = (-49/3 + 21) m \\ m & = (47-35)/(21-49/3) = 18/7 \end{split}$

R dice che questo è davvero 2.571429 ...

Sulla base di questo link sembra provenire da un corso di Coursera ...? Forse c'è stata una trascrizione errata dei dati da qualche parte?

$\sum (y-\bar y) (x-\bar x)$ $\sum (x-\bar x)^2$

g <- c(1,2,4)
g0 <- g - mean(g)
s <- c(1,5,9)
s0 <- s- mean(s)
sum(g0*s0)/(sum(g0^2))
## [1] 2.571429

$\{1,11/3,9\}$ $\{1,5,9\}$ quindi la pendenza verrebbe fuori a 8/3 ...

— Ben Bolker
fonte

Wow. Si hai ragione. Viene da un corso di Coursera ed è dal video, non dalla trascrizione. Quindi immagino che l'abbia semplificato per rendere i calcoli più semplici per il video e non si aspettava che nessuno provasse a ripeterlo. Mi è capitato di essere il primo video che ho visto, quindi ho cercato di seguirlo. È chiaro che ho bisogno di migliorare la mia competenza in matematica. Penso che abbia trovato l'errore però. Il termine costante, che dici non importa, è probabilmente il valore corretto che attraverso i suoi calcoli. Guarderò più volte la tua risposta per insegnare a me stesso. Lo apprezzo molto!

— post-hoc,

Non credo che il termine costante eliminerà i calcoli. Non influenzerà le stime della pendenza e dell'intercettazione (scompare quando prendiamo la derivata), solo le stime della SSQ residua / deviazione standard.

— Ben Bolker,