Comprensione del test t per la regressione lineare


17

Sto cercando di capire come eseguire alcuni test di ipotesi su una regressione lineare (l'ipotesi nulla non è correlazione). Ogni guida e pagina sull'argomento in cui mi imbatto sembra usare un test t. Ma non capisco cosa significhi effettivamente il test t per la regressione lineare. Un test t, a meno che non abbia una comprensione o un modello mentale completamente sbagliati, viene utilizzato per confrontare due popolazioni. Ma il regressore e il regressore non sono campioni di popolazioni simili e potrebbero anche non appartenere alla stessa unità, quindi non ha senso confrontarli.

Quindi, quando si utilizza un test t su una regressione lineare, che cosa stiamo effettivamente facendo?

Risposte:


37

Probabilmente stai pensando al test due campioni tperché quello è spesso il primo posto in cui arriva la distribuzione t . Ma in realtà tutto un test t significa che la distribuzione di riferimento per la statistica test è una distribuzione t . Se ZN(0,1) e S2χd2 con Z e S2 indipendenti, quindi

ZS2/dtd
per definizione. Sto scrivendo questo per sottolineare che ladistribuzionetè solo un nome che è stato dato alla distribuzione di questo rapporto perché emerge molto, e qualsiasi cosa di questo modulo avrà unadistribuzionet. Per il test t con due campioni, questo rapporto appare perché sotto lo zero la differenza nelle medie è un gaussiano a media zero e la stima della varianza per i gaussiani indipendenti è unχ2indipendente (l'indipendenza può essere mostrata tramiteil teorema di Basu che utilizza il fatto che la stima della varianza standard in un campione gaussiano è accessoria alla media della popolazione, mentre la media del campione è completa e sufficiente per la stessa quantità).

Con la regressione lineare otteniamo sostanzialmente la stessa cosa. In forma β^N(β,σ2(XTX)1) . Sia Sj2=(XTX)jj1 e si presupponga che i predittori X non siano casuali. Se sapessimo σ2 avremmo β j - 0

β^j0σSjN(0,1)
sotto il nullH0:βj=0quindi avremmo effettivamente un test Z. Ma una volta che stimiamoσ2si finisce con unaχ2variabile casuale che, sotto le nostre ipotesi di normalità, risulta essere indipendente dalla nostra statistica β je poi otteniamo unatdistribuzione.β^jt

Ecco i dettagli di ciò: assumiamo . Lasciar H = X ( X T X ) - 1 X T essere la matrice del cappello che abbiamo e 2 = ( I - H ) y 2 = y T ( I - H ) y . H è idempotente, quindi abbiamo il risultato davvero piacevole yN(Xβ,σ2I)H=X(XTX)1XT

e2=(IH)y2=yT(IH)y.
H con parametro di non centralità δ = β T X T ( I - H ) X β = β T ( X T X - X T X ) β = 0 , quindi in realtà questo è un χ 2 centralecon n - p
yT(IH)y/σ2χnp2(δ)
δ=βTXT(IH)Xβ=βT(XTXXTX)β=0χ2npgradi di libertà (questo è un caso speciale del teorema di Cochran ). Sto usando per indicare il numero di colonne di X , quindi se una colonna di X fornisce l'intercettazione allora avremmo p - 1 predittori di non intercettazione. Alcuni autori usano p come numero di predittori di non intercettazione, quindi a volte potresti vedere qualcosa come n - p - 1 nei gradi di libertà lì, ma è sempre la stessa cosa.pXXp1pnp1

Il risultato di ciò è che , così σ 2 : = 1E(eTe/σ2)=npfunziona come un grande estimatore diσ2.σ^2:=1npeTeσ2

Ciò significa che β j è il rapporto tra un gaussiano standard e un chi quadrato diviso per i suoi gradi di libertà. Per finire, dobbiamo mostrare indipendenza e possiamo usare il seguente risultato:

β^jσ^Sj=β^jSjeTe/(np)=β^jσSjeTeσ2(np)

Risultato: per e le matrici A e B rispettivamente in R l × k e R m × k , A Z e B Z sono indipendenti se e solo se A Σ B T = 0 (questo è esercizio 58 (b) nel capitolo 1 della Statistica matematica di Jun Shao ).ZNk(μ,Σ)ABRl×kRm×kAZBZAΣBT=0

Abbiamo β = ( X T X ) - 1 X T y ed e = ( I - H ) y , dove y ~ N ( X β , σ 2 I ) . Questo significa ( X T X ) - 1 X Tσ 2 I ( I - H ) T = σ 2β^=(XTX)1XTye=(IH)yyN(Xβ,σ2I) in modo ße, quindi ß e T e.

(XTX)1XTσ2I(IH)T=σ2((XTX)1XT(XTX)1XTX(XTX)1XT)=0
β^eβ^eTe

Il risultato è ora sappiamo β j come desiderato (sotto tutte le ipotesi di cui sopra).

β^jσ^Sjtnp

C=(AB)(l+m)×kAB

CZ=(AZBZ)N((AμBμ),CΣCT)
CΣCT=(AB)Σ(ATBT)=(AΣATAΣBTBΣATBΣBT).
CZAΣBT=0AZBZ nel CZ essere non correlato.


3
+1 divertiti sempre a leggere la tua risposta.
Haitao Du,

9

@ La risposta di Chaconne è fantastica. Ma ecco una versione non matematica molto più breve!

Poiché l'obiettivo è calcolare un valore P, è innanzitutto necessario definire un'ipotesi nulla. Quasi sempre, cioè la pendenza è effettivamente orizzontale, quindi il valore numerico per la pendenza (beta) è 0,0.

L'inclinazione dei dati non è 0,0. Tale discrepanza è dovuta a una casualità o perché l'ipotesi nulla è sbagliata? Non puoi mai rispondere con certezza, ma un valore P è un modo per ottenere una risposta.

Il programma di regressione riporta un errore standard della pendenza. Calcola il rapporto t come pendenza divisa per il suo errore standard. In realtà, è (pendenza meno pendenza di ipotesi nulla) divisa per l'errore standard, ma la pendenza di ipotesi nulla è quasi sempre zero.

Ora hai un rapporto. Il numero di gradi di libertà (df) è uguale al numero di punti dati meno il numero di parametri adattati dalla regressione (due per la regressione lineare).

Con questi valori (t e df) è possibile determinare il valore P con una calcolatrice o una tabella online.

Si tratta essenzialmente di un test t per un campione, che confronta un valore calcolato osservato (la pendenza) con un valore ipotetico (l'ipotesi nulla).


4
La vera questione è il motivo per cui questo è "essenzialmente un unico campione di t-test", e non vedo come possa diventare chiaro dalla tua risposta ...
ameba dice Ripristinare Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.