Interpretazione dell'output di R's lm ()


234

Le pagine di aiuto in R presumono che io sappia cosa significano quei numeri, ma non lo so. Sto cercando di capire davvero in modo intuitivo ogni numero qui. Pubblicherò solo l'output e commenterò ciò che ho scoperto. Potrebbero esserci (saranno) errori, poiché scriverò solo ciò che presumo. Principalmente vorrei sapere che cosa significa il valore t nei coefficienti e perché stampano l'errore standard residuo.

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

Questo è un riepilogo di 5 punti dei residui (la loro media è sempre 0, giusto?). I numeri possono essere usati (indovino qui) per vedere rapidamente se ci sono grandi valori anomali. Inoltre puoi già vederlo qui se i residui sono tutt'altro che distribuiti normalmente (dovrebbero essere distribuiti normalmente).

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Stime , calcolate dalla regressione dei minimi quadrati. Inoltre, l'errore standard è . Mi piacerebbe sapere come viene calcolato. Non ho idea da dove provengano il valore t e il corrispondente valore p. So che dovrebbe essere distribuito normalmente, ma come viene calcolato il valore t?βi^σβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

1npϵTϵ , immagino. Ma perché lo calcoliamo e cosa ci dice?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

R2=sy^2sy2 , che è . Il rapporto è vicino a 1 se i punti si trovano su una linea retta e 0 se sono casuali. Cos'è il rettangolo R rettificato?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

F e p per l' intero modello, non solo per singoli s come precedenti. Il valore F è . Più cresce, più è improbabile che i non abbiano alcun effetto.βisy^2ϵiβ


i residui non si discostano così tanto dalla normalità, perché la pensi così?
nico,

@nico: penso che @Alexx Hardt stesse parlando ipoteticamente. Vale a dire una volta che è possibile utilizzare il riepilogo dei cinque numeri per vedere se i residui si stavano discostando dal normale
Gavin Simpson,

@Gavin Simpson: hai ragione, ho letto male la frase. Ignora il mio commento precedente.
nico,

9
Minori cavilli: non si può dire nulla sulla normalità o non normalità basandosi solo su quei 5 quantili. Tutto quello che puoi dire sulla base di quel sommario è se i residui stimati sono approssimativamente simmetrici intorno allo zero. È possibile dividere i quantili riportati per l'errore standard residuo stimato e confrontare questi valori con i rispettivi quantili di N (0,1), ma guardare un diagramma QQ probabilmente ha più senso.
fabians,

5
Una nota qui: il modello non è , piuttosto è . è descritto correttamente nella risposta seguente, ma non menziona esplicitamente che è caratterizzato male nella domanda, quindi qualcuno potrebbe non notare la discrepanza. FSSmodel/SSerrorMSmodel/MSerrorF
gung

Risposte:


203

Riepilogo in cinque punti

Sì, l'idea è di fornire un breve riepilogo della distribuzione. Dovrebbe essere approssimativamente simmetrico rispetto alla media, la mediana dovrebbe essere vicina a 0, i valori 1Q e 3Q dovrebbero idealmente essere valori approssimativamente simili.

Coefficienti eβi^s

Ogni coefficiente nel modello è una variabile casuale gaussiana (normale). Il è la stima della media della distribuzione di quella variabile casuale e l'errore standard è la radice quadrata della varianza di quella distribuzione. È una misura dell'incertezza nella stima di .βi^βi^

Puoi vedere come vengono calcolati (bene le formule matematiche utilizzate) su Wikipedia . Si noti che qualsiasi programma di statistiche che si rispetti non utilizzerà le equazioni matematiche standard per calcolare perché eseguirle su un computer può portare a una grande perdita di precisione nei calcoli.βi^

t -statistics

Le statistiche sono le stime ( ) divise per i loro errori standard ( ), ad esempio . Supponendo che tu abbia lo stesso modello nell'oggetto della tua Q:tβi^σi^ti=βi^σi^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

quindi i rapporti valori R vengono calcolati come:t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

Dove coef(mod)sono il e fornisce le radici quadrate degli elementi diagonali della matrice di covarianza dei parametri del modello, che sono gli errori standard dei parametri ( ).βi^sqrt(diag(vcov(mod)))σi^

Il valore p è la probabilità di raggiungere unmaggiore o maggiore del valore t assoluto osservato se l'ipotesi nulla ( ) era vera, dove è . Sono calcolati come (usando dall'alto):|t|H0H0βi=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

Quindi calcoliamo la probabilità di coda superiore di raggiungere i valori che abbiamo fatto da una distribuzione con gradi di libertà pari ai gradi di libertà residua del modello. Ciò rappresenta la probabilità di raggiungere un valore maggiore dei valori assoluti delle osservate . Viene moltiplicato per 2, perché ovviamente anche può essere grande in direzione negativa.ttttt

Errore standard residuo

L'errore standard residuo è una stima del parametro . L'assunto nei minimi quadrati ordinari è che i residui sono descritti individualmente da una distribuzione gaussiana (normale) con media 0 e deviazione standard . Il riferisce all'assunto di varianza costante; ogni residuo ha la stessa varianza e quella varianza è uguale a .σσσσ2

rettificatoR2

rettificato viene calcolato come:R2

1(1R2)n1np1

regolato è uguale a , ma adattato per la complessità (ovvero il numero di parametri) del modello. Dato un modello con un singolo parametro, con un certo , se aggiungiamo un altro parametro a questo modello, l' del nuovo modello deve aumentare, anche se il parametro aggiunto non ha potere statistico. L' regolatoR2R2R2R2R2 tiene conto di ciò includendo il numero di parametri nel modello.

F -statistico

FSSR/SSE ), la varianza spiegata dai parametri del modello (somma dei quadrati di regressione, SSR) e la varianza residua o non spiegata (somma dei quadrati di errori, SSE ). Puoi vederlo meglio se otteniamo la tabella ANOVA per il modello tramite anova():

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Fsummary(mod)Mean Sq3.7945/0.1656=22.91FFF=tPetal.Width2, motivo per cui i valori p sono gli stessi. Questa equivalenza vale solo in questo semplice caso.


5
@Gavin (+1) Ottima risposta con belle illustrazioni!
chl

2
Bel lavoro. Una cosa che potresti chiarire, riguardo al calcolo dei valori t: sqrt (diag (vcov (mod))) produce il SE delle stime. Questi sono gli stessi SE che vengono emessi nel riepilogo del modello. Più facile e chiaro solo per dire che t = Stima / STIMA. In questo senso non è diverso da qualsiasi altro valore t.
Brett,

2
Ft2

2
@Jay; Grazie. Ho pensato di menzionare anche questa equivalenza. Non sei sicuro che fosse troppo dettaglio o no? Pubblicherò qualcosa al riguardo tra un mese.
Gavin Simpson,

2
"non utilizzerà le equazioni matematiche standard per calcolare" Che cosa useranno?
SmallChess

0

Ronen Israel e Adrienne Ross (AQR) hanno scritto un articolo molto carino su questo argomento: Misurare le esposizioni ai fattori: usi e abusi .

Per riassumere (vedi: p. 8),

  • R2
  • Quando la statistica t è maggiore di due, possiamo dire con una sicurezza del 95% (o una probabilità del 5% che ci sbagliamo) che la stima beta è statisticamente diversa da zero. In altre parole, possiamo dire che un portafoglio ha un'esposizione significativa a un fattore.

Il lm()sommario di R calcola il valore p Pr(>|t|). Più piccolo è il valore p, più significativo è il fattore. Il valore P = 0,05 è una soglia ragionevole.


6
I tipi di errori in questo documento, esemplificati da "Quando la statistica t è maggiore di due, possiamo dire (con ... una probabilità del 5% di sbagliarci) che la stima beta è statisticamente diversa da zero" [at p . 11], sono discussi su stats.stackexchange.com/questions/311763 e stats.stackexchange.com/questions/26450 .
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.