Quando utilizzare la distribuzione di Student o Normal nella regressione lineare?

10

Sto esaminando alcuni problemi, e in alcuni, per testare i coefficienti, a volte vedo persone che usano la distribuzione di Student, e a volte vedo distribuzione normale. Qual è la regola?

regression distributions hypothesis-testing

— Leo
fonte

3

Questa non è una risposta, ma si noti che la distribuzione avvicina alla distribuzione normale man mano che il parametro gradi di libertà cresce. Passato , non vi è alcuna differenza apprezzabile, in particolare nella maggior parte dei framework di verifica delle ipotesi. Il comportamento limitante è "dall'alto", nel senso che if e , quindiè stocasticamente più grande di.

t

$t$

ν

$\nu$

ν \geq 30

$\nu \geq 30$

T \sim t_{ν}

$T \sim t_{\nu}$

Z \sim N (0, 1)

$Z \sim \mathcal{N}(0,1)$

| T |

$|T|$

| Z |

$|Z|$

— cardinale

15

La distribuzione normale è la grande distribuzione del campione in molti problemi statistici significativi che coinvolgono alcune versioni del Teorema del limite centrale: hai (approssimativamente) informazioni indipendenti che vengono aggiunte per arrivare alla risposta. Se le stime dei parametri sono asintoticamente normali, anche le loro funzioni saranno asintoticamente normali (in casi regolari).

D'altra parte, la distribuzione di Student è derivata in condizioni più restrittive di normali errori di regressione. Se è possibile acquistare questo presupposto, è possibile acquistare la distribuzione utilizzata per verificare l'ipotesi nella regressione lineare. L'uso di questa distribuzione fornisce intervalli di confidenza più ampi rispetto all'uso della distribuzione normale. Il significato sostanziale di ciò è che in piccoli campioni, è necessario stimare la misura dell'incertezza, l'errore medio quadratico di regressione o la deviazione standard dei residui, . (In campioni di grandi dimensioni, hai un po 'di informazioni come se le conoscessi, quindi la distribuzione degenera alla distribuzione normale.) $t$ $t$ $\sigma$ $t$

Ci sono alcune occasioni di regressione lineare, anche con campioni finiti, in cui la distribuzione degli studenti non può essere giustificata. Sono collegati a violazioni delle condizioni del secondo ordine relative a errori di regressione; vale a dire che sono (1) varianza costante e (2) indipendente. Se queste ipotesi vengono violate e si correggono gli errori standard utilizzando lo stimatore Eicker / White per i residui eteroschedastici, ma indipendenti; o lo stimatore di Newey-West per errori serialmente correlati o errori standard clusterper i dati correlati al cluster, non è possibile ottenere una giustificazione ragionevole per la distribuzione degli studenti. Tuttavia, impiegando una versione appropriata dell'argomento della normalità asintotica (matrici traingolari e simili), è possibile giustificare l'approssimazione normale (anche se è necessario tenere presente che gli intervalli di confidenza sarebbero molto probabilmente troppo stretti).

— Stask
fonte

1

(+1) Adoro l'implicazione, nell'apertura del terzo paragrafo, che la regressione lineare sia fatta con campioni infiniti (non "finiti")!

— whuber

@whuber: :) Nei miei libri, se è normale, deve fare affidamento su CLT o qualcosa di asintotico. Altrimenti, ha tanto senso quanto questo .

— StasK,

6

Mi piace la rappresentazione della distribuzione student t come una miscela di una distribuzione normale e una distribuzione gamma:

S t u d e n t (x | μ, σ^{2}, ν) = \int_{0}^{\infty} N o r m a l (x | μ, \frac{σ^{2}}{ρ}) G a m m a (ρ | \frac{ν}{2}, \frac{ν}{2}) d ρ

$Student(x|\mu,\sigma^2,\nu)=\int_{0}^{\infty}Normal\left(x|\mu,\frac{\sigma^2}{\rho}\right)Gamma\left(\rho|\frac{\nu}{2},\frac{\nu}{2}\right)d\rho$

Si noti che la media della distribuzione gamma è e la varianza di questa distribuzione è . Quindi possiamo vedere la distribuzione t come generalizzare il presupposto di varianza costante a un presupposto di varianza "simile". fondamentalmente controlla quanto simili permettiamo alle varianze di essere. Vedi anche questo come regressione "ponderata casuale", poiché possiamo usare l'integrale sopra come rappresentazione di "variabile nascosta" come segue: $E[\rho|\nu]=1$ $V[\rho|\nu]=\frac{2}{\nu}$ $\nu$

y_{i} = μ_{i} + \frac{e_{i}}{\sqrt{ρ_{i}}}

$y_i=\mu_i+\frac{e_i}{\sqrt{\rho_i}}$

Dove e tutte le variabili sono indipendenti. In realtà questa è fondamentalmente solo la definizione della distribuzione t, come $e_i\sim N(0,\sigma^2)$ $\rho_i\sim Gamma\left(\frac{\nu}{2},\frac{\nu}{2}\right)$ $Gamma\left(\frac{\nu}{2},\frac{\nu}{2}\right)\sim \frac{1}{\nu}\chi^2_\nu$

Puoi capire perché questo risultato rende la distribuzione t dello studente "robusta" rispetto alla normale perché un grande errore può verificarsi a causa di un grande valore di o a causa di un piccolo valore di . Ora, poiché è comune a tutte le osservazioni, ma è specifico dell'una, la cosa generale di "buon senso" da concludere è che i anomali forniscono prove per piccoli . Inoltre, se dovessi fare una regressione lineare , scoprirai che è il peso per la sua osservazione, supponendo che sia noto .: $y_i-\mu_i$ $\sigma^2$ $\rho_i$ $\sigma^2$ $\rho_i$ $\rho_i$ $\mu_i=x_i^T\beta$ $\rho_i$ $\rho_i$

\hat{β} = (\sum_{i} ρ_{i} x_{i} x_{i}^{T})^{- 1} (\sum_{i} ρ_{i} x_{i} y_{i})

$\hat{\beta}=(\sum_i\rho_ix_ix_i^T)^{-1}(\sum_i\rho_ix_iy_i)$

Quindi un outlier costituisce la prova per il piccolo che significa che la sua osservazione prende meno peso. Inoltre, un piccolo "outlier" - un'osservazione che è prevista / adattata molto meglio del resto - costituisce una prova per grandi . Quindi a questa osservazione verrà dato più peso nella regressione. Ciò è in linea con ciò che si farebbe in modo intuitivo con un valore anomalo o un buon punto dati. $\rho_i$ $\rho_i$

Nota che non esiste una "regola" per decidere queste cose, sebbene la mia e altre risposte a questa domanda possano essere utili per trovare alcuni test che puoi fare lungo il percorso della varianza finita (lo studente t è una varianza infinita per gradi di libertà inferiori o uguali a due).

— probabilityislogic
fonte

+1: questo sembra giusto, ma non penso che dovresti dire una miscela di una distribuzione normale e una gamma, ma piuttosto una distribuzione composta normale-gamma-normale e motivare questa costruzione dicendo che la distribuzione gamma normale è la coniugato precedente alla distribuzione normale (parametrizzato da media e precisione).

— Neil G,

Sì, punto preso sulla miscela - anche se non riesco a pensare a un modo non goffo per correggerlo ora. Si noti che questo modulo non è univoco per coniugare le distribuzioni - ad esempio se sostituiamo il gamma pdf con un pdf esponenziale invertito, otteniamo la distribuzione laplace. Ciò porta a "deviazioni meno assolute" anziché a minimi quadrati come una forma di solidificazione della distribuzione normale. Altre distribuzioni porterebbero ad altre "fortificazioni" - forse non tanto analiticamente belle quanto quelle degli studenti.

— Probislogic,

Se X è una variabile casuale normale standard e U è una variabile casuale chi-quadrato con ν gradi di libertà, allora è uno Studente t (ν) variabile casuale. QUI .

\frac{X}{\sqrt{(U / ν)}}

${\frac {X}{\sqrt {(U/\nu )}}}$

— Carl