Test di Wald in regressione (OLS e GLM): distribuzione t- vs. z


22

Comprendo che il test Wald per i coefficienti di regressione si basa sulla seguente proprietà che detiene asintoticamente (ad esempio Wasserman (2006): All of Statistics , pagine 153, 214-215): Dove indica il coefficiente di regressione stimato, indica l'errore standard del coefficiente di regressione e è il valore di interesse ( è di solito 0 per verificare se il coefficiente è significativamente diverso da 0). Quindi il test size Wald è: rifiuta quandoβ^SE(β)β0β0αH0| W| >zα/2

(β^β0)se^(β^)N(0,1)
β^se^(β^)β0β0αH0|W|>zα/2 dove
W=β^SE^(β^).

Ma quando si esegue una regressione lineare con lmin R, viene utilizzato un valore t anziché un valore z per verificare se i coefficienti di regressione differiscono significativamente da 0 (con summary.lm). Inoltre, l'output di glmin R talvolta fornisce z - e talvolta t valori come statistiche di test. Apparentemente, i valori z vengono utilizzati quando si presume che il parametro di dispersione sia noto e t valori t vengono utilizzati quando viene stimato il parametro di dispersione (vedere questo collegamento ).

Qualcuno potrebbe spiegare, perché a volte una distribuzione t viene utilizzata per un test Wald anche se si presume che il rapporto tra il coefficiente e il suo errore standard sia distribuito come normale?

Modifica dopo aver risposto alla domanda

Questo post fornisce anche informazioni utili alla domanda.


2
Cosa ti fa pensare che la statistica del test riportata sia necessariamente un test Wald?
Glen_b

3
Perché i valori z - o t sono sempre il coefficiente diviso per il suo errore standard in lme glm.
COOLSerdash,

Risposte:


20

L'output glmdell'utilizzo di una distribuzione di Poisson fornisce un valore perché con una distribuzione di Poisson, i parametri media e varianza sono gli stessi. Nel modello di Poisson, devi solo stimare un singolo parametro ( ). In una dove si deve stimare sia un mezzo e parametro di dispersione, si dovrebbe vedere la -distribuzione utilizzato.λ tzλglmt

Per una regressione lineare standard, si presuppone che il termine di errore sia normalmente distribuito. Qui, il parametro varianza deve essere stimato - da qui l'uso della distribuzione per la statistica test. Se in qualche modo conoscessi la varianza della popolazione per il termine di errore, puoi invece utilizzare una statistica -test.ztz

Come accennato nel tuo post, la distribuzione del test è asintoticamente normale. La distribuzione è asintoticamente normale, quindi in un campione ampio la differenza sarebbe trascurabile.t


3

Nel framework GLM, in generale, la statistica del test W che hai citato è distribuita asintoticamente normale , ecco perché vedi in R i valori z .

Inoltre, quando si ha a che fare con un modello lineare, ovvero un GLM con una variabile di risposta distribuita normale, la distribuzione della statistica di test è una t di Student , quindi in R si hanno valori t .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.