Prova che la statistica F segue la distribuzione F.


20

Alla luce di questa domanda: prova che i coefficienti in un modello OLS seguono una distribuzione t con gradi di libertà (nk)

Mi piacerebbe capire perché

F=(TSSRSS)/(p1)RSS/(np),

dove è il numero di parametri del modello e il numero di osservazioni e la varianza totale, la varianza residua, segue una distribuzione .pnTSSRSSFp1,np

Devo ammettere che non ho nemmeno provato a provarlo perché non saprei da dove cominciare.


Christoph Hanck e Francis hanno già dato un'ottima risposta. Se hai ancora difficoltà a comprendere la prova di f test per la regressione lineare, prova a controllare teamdable.github.io/techblog/… . Ho scritto il post sul blog sulla prova del ftest per la regressione lineare. È scritto in coreano ma potrebbe non essere un problema perché quasi tutto è una formula matematica. Spero che sarebbe di aiuto se hai ancora difficoltà a comprendere la prova di f test per la regressione lineare.
Taeho Oh,

Sebbene questo collegamento possa rispondere alla domanda, è meglio includere qui le parti essenziali della risposta e fornire il collegamento come riferimento. Le risposte di solo collegamento possono diventare non valide se la pagina collegata cambia. - Dalla recensione
mkt - Ripristina Monica il

Risposte:


19

Mostriamo il risultato per il caso generale in cui la tua formula per la statistica del test è un caso speciale. In generale, dobbiamo verificare che la statistica possa essere, in base alla caratterizzazione della distribuzioneF , essere scritta come il rapporto di rv indipendente diviso per i loro gradi di libertà.χ2

Sia con e conosciuti, non casuali e ha rango di colonna completo . Ciò rappresenta restrizioni lineari per (diversamente dalla notazione dei PO) regressori incluso il termine costante. Quindi, nell'esempio di @utente1627466, corrisponde alle restrizioni di impostare tutti i coefficienti di pendenza su zero.H0:Rβ=rRrR:k×qqqkp1q=k1

In vista di , abbiamo modo che (con essendo una "radice quadrata a matrice" di , tramite, ad esempio, un Decomposizione cholesky) come Var(β^ols)=σ2(XX)1

R(β^olsβ)N(0,σ2R(XX)1R),
B1/2={R(XX)1R}1/2B1={R(XX)1R}1
n:=B1/2σR(β^olsβ)N(0,Iq),
Var(n)=B1/2σRVar(β^ols)RB1/2σ=B1/2σσ2BB1/2σ=I
dove la seconda riga usa la varianza di OLSE.

Questo, come mostrato nella risposta a cui ti colleghi (vedi anche qui ), è indipendente da dove è la normale stima della varianza dell'errore imparziale, con è la 'matrice produttore residua' dalla regressione su .

d: =(n-K)σ^2σ2~χn-K2,
σ 2=y'MXy/(n-k)MX=I-X(X'X)-1X'Xσ^2=y'MXy/(n-K)MX=io-X(X'X)-1X'X

Quindi, poiché è una forma quadratica in normali, In particolare, sotto , questo si riduce alla statistica n'n

n'n~χq2/qd/(n-K)=(β^ols-β)'R{R'(X'X)-1R}-1R'(β^ols-β)/qσ^2~Fq,n-K.
H0:R'β=r
F=(R'β^ols-r)'{R'(X'X)-1R}-1(R'β^ols-r)/qσ^2~Fq,n-K.

Per l'illustrazione, si consideri il caso speciale , , , e . Quindi, la distanza euclidea quadrata dell'OLS stima dall'origine standardizzata dal numero di elementi - evidenziando che, poiché sono normali standard al quadrato e quindi , si può vedere la distribuzione come una "media distribuzione.R'=ior=0q=2σ 2 = 1 X ' X = I F = beta ' ols beta ols / 2 = beta 2 OLS , 1 + beta 2 oli , 2σ^2=1X'X=io

F=β^ols'β^ols/2=β^ols,12+β^ols,222,
beta2oli,2χ21F×2β^ols,22χ12Fχ2

Nel caso in cui preferiate una piccola simulazione (che ovviamente non è una prova!), In cui viene verificato il null che nessuno dei regressori conta - cosa che in effetti non fa, in modo da simulare la distribuzione nulla.K

inserisci qui la descrizione dell'immagine

Vediamo un ottimo accordo tra la densità teorica e l'istogramma delle statistiche dei test di Monte Carlo.

library(lmtest)
n <- 100
reps <- 20000
sloperegs <- 5 # number of slope regressors, q or k-1 (minus the constant) in the above notation
critical.value <- qf(p = .95, df1 = sloperegs, df2 = n-sloperegs-1) 
# for the null that none of the slope regrssors matter

Fstat <- rep(NA,reps)
for (i in 1:reps){
  y <- rnorm(n)
  X <- matrix(rnorm(n*sloperegs), ncol=sloperegs)
  reg <- lm(y~X)
  Fstat[i] <- waldtest(reg, test="F")$F[2] 
}

mean(Fstat>critical.value) # very close to 0.05

hist(Fstat, breaks = 60, col="lightblue", freq = F, xlim=c(0,4))
x <- seq(0,6,by=.1)
lines(x, df(x, df1 = sloperegs, df2 = n-sloperegs-1), lwd=2, col="purple")

Per vedere che le versioni delle statistiche di test nella domanda e nella risposta sono effettivamente equivalenti, notare che il valore nullo corrisponde alle restrizioni e .R'=[0io]r=0

Consenti a essere partizionato in base a quali coefficienti sono limitati a essere zero sotto lo zero (nel tuo caso, tutti tranne la costante, ma la derivazione da seguire è generale). Inoltre, è la stima OLS opportunamente suddivisa.X=[X1X2]β oli = ( ß ' OLS , 1 , beta ' oli , 2 ) 'β^ols=(β^ols,1',β^ols,2')'

Quindi, e il blocco in basso a destra di Ora, usa i risultati per inversioni partizionate per ottenere dove .

R'β^ols=β^ols,2
R'(X'X)-1RD~,
(XTX)-1=(X1'X1X1'X2X2'X1X2'X2)-1(UN~B~C~D~)
˜ D =(X2 X2-X2 X1(X1 X1)-1X1 X2)-1=(X2 M X 1 X2)-1M X 1 =I
D~=(X2'X2-X2'X1(X1'X1)-1X1'X2)-1=(X2'MX1X2)-1
MX1=io-X1(X1'X1)-1X1'

Pertanto, il numeratore della statistica diventa (senza la divisione per ) Successivamente, ricorda che con il teorema di Frisch-Waugh-Lovell possiamo scrivere modo che Fq

Fnum=β^ols,2'(X2'MX1X2)β^ols,2
β^ols,2=(X2'MX1X2)-1X2'MX1y
Fnum=y'MX1X2(X2'MX1X2)-1(X2'MX1X2)(X2'MX1X2)-1X2'MX1y=y'MX1X2(X2'MX1X2)-1X2'MX1y

Resta da dimostrare che questo numeratore è identico a , la differenza nella somma illimitata e limitata dei residui quadrati.URSS-RSSR

Qui, è la somma residua di quadrati da regredire su , cioè con imposto. Nel tuo caso speciale, questo è solo , i residui di una regressione su una costante.

RSSR=y'MX1y
yX1H0TSS=Σio(yio-y¯)2

Usando nuovamente FWL (che mostra anche che i residui dei due approcci sono identici), possiamo scrivere (SSR nella tua notazione) come SSR della regressione URSS

MX1ysuMX1X2

Cioè,

URSS=y'MX1'MMX1X2MX1y=y'MX1'(io-PMX1X2)MX1y=y'MX1y-y'MX1MX1X2((MX1X2)'MX1X2)-1(MX1X2)'MX1y=y'MX1y-y'MX1X2(X2'MX1X2)-1X2'MX1y

Così,

RSSR-URSS=y'MX1y-(y'MX1y-y'MX1X2(X2'MX1X2)-1X2'MX1y)=y'MX1X2(X2'MX1X2)-1X2'MX1y


Grazie. Non so se a questo punto si considera tenere la mano, ma come si passa dalla somma dei beta quadrati a un'espressione che contiene la somma dei quadrati?
user1627466,

1
@ user1627466, ho aggiunto una derivazione dell'equivalenza delle due formule.
Christoph Hanck,

4

@ChristophHanck ha fornito una risposta molto completa, qui aggiungerò uno schizzo di prova sul caso speciale OP citato. Speriamo che sia anche più facile da seguire per i principianti.

Una variabile casuale se dove e sono indipendenti. Pertanto, per dimostrare che la statistica ha distribuzione , possiamo anche dimostrare che e per qualche costante e che sono indipendenti.Y~Fd1,d2

Y=X1/d1X2/d2,
X1~χd12X2~χd22FFcESS~χp-12cRSS~χn-p2c

Nel modello OLS scriviamo dove è una matrice , e idealmente . Per comodità, presentiamo la matrice hat (note ) e il creatore residuo . Le proprietà importanti di e sono che sono sia simmetriche che idempotenti. Inoltre, abbiamo e , questi torneranno utili in seguito.

y=Xβ+ε,
Xn×pε~Nn(0,σ2io)H=X(XTX)-1XTy^=HyM=io-HHMTR(H)=pHX=X

Indichiamo la matrice di tutti come , la somma dei quadrati può quindi essere espressa con forme quadratiche:Si noti che . Si può verificare che sia idempotente e . Ne consegue questo allora che è idempotente e .J

TSS=yT(io-1nJ)y,RSS=yTMy,ESS=yT(H-1nJ)y.
M+(H-J/n)+J/n=ioJ/nrango(M)+rango(H-J/n)+rango(J/n)=nH-J/nM(H-J/n)=0

Ora possiamo iniziare a dimostrare che -statistic ha la -distribuzione (cerca di più nel teorema di Cochran ). Qui abbiamo bisogno di due fatti:FF

  1. Sia . Supponiamo che sia simmetrico con il grado e sia idempotente, quindi , cioè non centrale con df e non centralità . Questo è un caso speciale del risultato di Baldessari , una prova può essere trovata anche qui .X~Nn(μ,Σ)UNrUNΣXTUNX~χr2(μTUNμ/2)χ2rμTUNμ/2
  2. Sia . Se , allora e sono indipendenti. Questo è noto come teorema di Craig .X~Nn(μ,Σ)UNΣB=0XTUNXXTBX

Poiché , abbiamoTuttavia, sotto ipotesi nulla , quindi davvero . D'altra parte, si noti che dal . Pertanto . Poiché , anche e sono indipendenti. Segue immediatamente alloray~Nn(Xβ,σ2io)

ESSσ2=(yσ)T(H-1nJ)yσ~χp-12((Xβ)T(H-Jn)Xβ).
β=0ESS/σ2~χp-12yTMy=εTMεHX=XRSS/σ2~χn-p2M(H-J/n)=0ESS/σ2RSS/σ2
F=(TSS-RSS)/(p-1)RSS/(n-p)=ESSσ2/(p-1)RSSσ2/(n-p)~Fp-1,n-p.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.