Perché una distribuzione T viene utilizzata per testare l'ipotesi di un coefficiente di regressione lineare?


16

In pratica, l'uso di un test T standard per verificare il significato di un coefficiente di regressione lineare è pratica comune. La meccanica del calcolo ha senso per me.

Perché la distribuzione a T può essere utilizzata per modellare la statistica test standard utilizzata nel test di ipotesi di regressione lineare? Statistica del test standard a cui mi riferisco qui:

T0=β^β0SE(β^)

Una risposta completa e completa a questa domanda sarà piuttosto lunga, ne sono certo. Quindi, mentre aspetti che qualcuno lo affronti, puoi avere una buona idea del perché questo è il caso guardando alcune note che ho trovato online qui: onlinecourses.science.psu.edu/stat501/node/297 . Nota in particolare che t(np)2=F(1,np) .
StatStudent,

1
Non posso credere che questo non sia un duplicato, eppure tutti i voti positivi (sia sulla domanda che sulle risposte) ... Che ne dici di questo ? O forse non è un duplicato, il che significa che ci sono (o c'erano fino ad oggi) argomenti super-base che non sono stati ancora trattati nei quasi sette anni di esistenza di Cross Validated ... Wow ...
Richard Hardy

@RichardHardy Hmm, sembra un duplicato. Mentre è più prolisso, la domanda è specificamente: "Come posso dimostrare che per β i , β I - β iβ^i"β^iβisβ^itnk
Firebug

Risposte:


25

Per capire il motivo per cui si usa il t-distribuzione, è necessario sapere che cosa è la distribuzione di fondo di β e della somma dei quadrati dei residui ( R S S ) come questi due messi insieme vi darà la distribuzione t.β^RSS

La parte più semplice è la distribuzione di β che è una distribuzione normale - a questa nota che β = ( X T X ) - 1 X T Y è quindi una funzione lineare di Y , dove Y ~ N ( X β , σ 2 I n ) . Come risultato è anche distribuito normalmente, β ~ N ( β , σ 2 ( X T X ) -β^β^(XTX)1XTYYYN(Xβ,σ2In)- fatemi sapere se avete bisogno di aiuto derivante la distribuzione di β .β^N(β,σ2(XTX)1)β^

Inoltre, , dove n è il numero di osservazioni e p è il numero di parametri utilizzati nella regressione. La prova di ciò è un po 'più complessa, ma anche semplice da ricavare (vedi la prova qui Perché l'RSS è distribuito chi square times np? ).RSSσ2χnp2np

Fino a questo punto ho considerato tutto nella matrice / vettore di notazione, ma cerchiamo di semplicità d'uso β ho e utilizzare la sua distribuzione normale, che ci darà: β I - β iβ^i

β^iβiσ(XTX)ii1N(0,1)

Inoltre, dalla distribuzione chi-quadrato di abbiamo che: ( n - p ) s 2RSS

(np)s2σ2χnp2

Questo era semplicemente un riarrangiamento della prima espressione chi-quadrata ed è indipendente da . Inoltre, definiamo s 2 = R S SN(0,1) , che è uno stimatore imparziale perσ2. Con la definizione della definizionetn-pche dividendo una distribuzione normale per un chi-quadrato indipendente (oltre i suoi gradi di libertà) si ottiene una distribuzione t (per la prova vedi:una normale divisa pers2=RSSnpσ2tnp ti dà una distribuzione t - provaχ2(s)/s) ottieni che:

β^iβis(XTX)ii1tnp

s(XTX)ii1=SE(β^i)

Fammi sapere se ha senso.


what a great answer! could you please explain why
β^iβiσ(XTX)ii1N(0,1)
?
KingDingeling

4

The answer is actually very simple: you use t-distribution because it was pretty much designed specifically for this purpose.

Ok, the nuance here is that it wasn't designed specifically for the linear regression. Gosset came up with distribution of sample that was drawn from the population. For instance, you draw a sample x1,x2,,xn, and calculate its mean x¯=i=1nxi/n. What is the distribution of a sample mean x¯?

If you knew the true (population) standard deviation σ, then you'd say that the variable ξ=(x¯μ)n/σ is from the standard normal distribution N(0,1). The trouble's that you usually do not know σ, and can only estimate it σ^. So, Gosset figured out the distribution when you substitute σ with σ^ in the denominator, and the distribution is now called after his pseduonym "Student t".

The technicalities of linear regression lead to a situation where we can estimate the standard error σ^β of the coefficient estimate β^, but we do not know the true σ, therefore Student t distribution is applied here too.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.