Wald test per la regressione logistica


55

Per quanto ho capito, il test di Wald nel contesto della regressione logistica viene utilizzato per determinare se una determinata variabile predittiva è significativa o meno. Rifiuta che l'ipotesi nulla del coefficiente corrispondente sia zero.X

Il test consiste nel dividere il valore del coefficiente per errore standard .σ

Ciò di cui sono confuso è che è anche noto come Z-score e indica quanto è probabile che una data osservazione provenga dalla distribuzione normale (con zero medio).X/σ



2
Forse potrebbe essere il contrario, poiché la risposta in questo è più sviluppata.
Firebug,

Risposte:


86

Le stime dei coefficienti e delle intercettazioni nella regressione logistica (e di qualsiasi GLM) si trovano attraverso la stima della massima verosimiglianza (MLE). Queste stime sono indicate con un cappello sopra i parametri, qualcosa come . Il nostro parametro di interesse è denotato e di solito è 0 poiché vogliamo testare se il coefficiente differisce da 0 o meno. Dalla teoria asintotica di MLE, sappiamo che la differenza tra e sarà approssimativamente normalmente distribuita con la media 0 (i dettagli possono essere trovati in qualsiasi libro di statistiche matematiche come Tutte le statistiche di Larry Wasserman ) . Ricordiamo che gli errori standard non sono altro che θ0 θ θ0θ^θ0θ^θ0deviazioni standard delle statistiche (Sokal e Rohlf scrivono nel loro libro Biometria : "una statistica è una delle molte quantità statistiche calcolate o stimate", ad esempio la media, la mediana, la deviazione standard, il coefficiente di correlazione, il coefficiente di regressione, ...). Dividere una distribuzione normale con media 0 e deviazione standard per la sua deviazione standard produrrà la distribuzione normale standard con media 0 e deviazione standard 1. La statistica Wald è definita come (ad es. Wasserman (2006): All of Statistics , pagine 153, 214-215): W = ( β - β 0 )σ o W2=(β-β0)2

W=(β^β0)se^(β^)N(0,1)
La seconda forma deriva dal fatto che il quadrato di una distribuzione normale standard è laχ21-distribuzione con 1 grado di libertà (la somma di due al quadrato normale standard sarebbe unχ22-distribuzione con 2 gradi di libertà e così via).
W2=(β^β0)2Var^(β^)χ12
χ12χ22

β0=0

W=β^se^(β^)N(0,1)

zt

ztzptzVar[β^|X]=σ2(XX)1σ2Xσ2σ^2=s2se^(βj^)=s2(XX)jj1tt

YBin(n,p)E(Y)=npVar(Y)=np(1p)ϕϕ=1ϕ<1ϕ>1ztp-valori. In R, guarda questi due esempi:

Regressione logistica

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

z


Regressione lineare normale (OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

tzt

Un altro post correlato può essere trovato qui .


1
Grazie mille per questo bel post che risponde a tutte le mie domande.
user695652,

1
Quindi, praticamente, per quanto riguarda la prima parte della tua eccellente risposta: se per qualche motivo avessi come output il rapporto di probabilità e la statistica di Wald, potrei calcolare l'errore standard da questi come: SE = (1 / Wald- statistica) * ln (OR) È corretto? Grazie!
Sander W. van der Laan,

1
@ SanderW.vanderLaan Grazie per il tuo commento. Sì, credo sia corretto. Se si esegue una regressione logistica, le statistiche Wald saranno il valore z.
COOLSerdash l'

2
Che bella risposta !! Ho alcuni suggerimenti di revisione: personalmente ritengo che questa risposta stia mescolando i dettagli con gli elenchi di punch. Vorrei inserire i dettagli di come la regressione lineare sta usando la varianza dei residui in un grafico separato.
Haitao Du,

1
Anche per il parametro di dispersione e la connessione al codice R, potremmo essere in grado di aprire un'altra sezione o una linea di separazione di cui parlare.
Haitao Du,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.