Gli intervalli di confidenza per i coefficienti di regressione lineare dovrebbero essere basati sulla distribuzione normale o ?


18

Diamo qualche modello lineare, ad esempio ANOVA semplice:

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

Il risultato è il seguente:

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16 

Ora provo due metodi diversi per stimare l'intervallo di confidenza di questi parametri

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

Domande:

  1. Qual è la distribuzione dei coefficienti di regressione lineare stimati? Normale o ?t
  2. Perché entrambi i metodi producono risultati diversi? Supponendo che la distribuzione normale e SE corretta, mi aspetto che entrambi i metodi abbiano lo stesso risultato.

Grazie mille!

dati ~ 0 + fatti

MODIFICA dopo una risposta :

La risposta è esatta, questo darà esattamente lo stesso risultato di confint(m1)!

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

Risposte:


19

(1) Quando gli errori sono distribuiti normalmente e la loro varianza è non noto, allora β - β 0 ha unat-distribuzione sotto l'ipotesi nulla cheβ0è il vero coefficiente di regressione. Il predefinito inè a provaβ0=0, quindi it-Statistiche riportati sono solo β

β^β0se(β^)
tβ0Rβ0=0t
β^se(β^)

Si noti che, in alcune condizioni di regolarità, la statistica sopra è sempre asintoticamente normalmente distribuita, indipendentemente dal fatto che gli errori siano normali o se la varianza dell'errore sia nota.

(2) Il motivo per cui si ottengono risultati diversi è che i percentili della distribuzione normale sono diversi dai percentili della distribuzione . Pertanto, il moltiplicatore che stai utilizzando davanti all'errore standard è diverso, il che a sua volta fornisce intervalli di confidenza diversi.t

In particolare, ricorda che l'intervallo di confidenza usando la distribuzione normale è

β^±zα/2se(β^)

dove è il quantile α / 2 della distribuzione normale. Nel caso standard di un intervallo di confidenza al 95 % , α = .05 e z α / 21,96 . L'intervallo di confidenza basato sulla distribuzione t èzα/2α/295%α=.05zα/21.96t

β^±tα/2,npse(β^)

dove il moltiplicatore si basa sui quantili della distribuzione t con gradi di libertà n - p dove n è la dimensione del campione e p è il numero di predittori. Quando n è grande, t α / 2 , n - p e z α / 2 sono quasi uguali.tα/2,nptnpnpntα/2,npzα/2

Di seguito è riportato un grafico dei moltiplicatori per campioni di dimensioni comprese tra 5 e 300 (ho ipotizzato p = 1 per questo diagramma, ma questo non cambia nulla qualitativamente). I moltiplicatori t sono più grandi, ma, come puoi vedere di seguito, convergono al moltiplicatore z (linea nera continua) all'aumentare della dimensione del campione. t5300p=1tz

enter image description here


Sì!! Bel lavoro !! (+1)
gui11aume

Macro, grazie per la risposta. Ma: tu parli della distribuzione delle statistiche T, mentre io ho chiesto della distribuzione del coefficiente di regressione. La mia comprensione è che il coefficiente di regressione è una distribuzione caratterizzata dalla sua media (la stima del coefficiente) e dal suo errore standard. Ho chiesto informazioni su questa distribuzione, non sulla distribuzione delle statistiche di prova. Potrei perdere qualcosa, quindi per favore prova a spiegare in modo più ovvio :) Grazie
Curioso l'

2
β^β0se(β^)
tβ^tβ0se(β^)β^

Hai esattamente ragione! Questo darà esattamente lo stesso risultato confint(m1), anche per campioni di piccole dimensioni! cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
Curioso l'

β^β^β0β0t
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.