test dei coefficienti di regressione logistica usando


12

Riepilogo: esiste una teoria statistica per supportare l'uso della distribuzione (con gradi di libertà basati sulla devianza residua) per i test dei coefficienti di regressione logistica, piuttosto che la distribuzione normale standard?t


Qualche tempo fa ho scoperto che quando si adattava un modello di regressione logistica in SAS PROC GLIMMIX, in base alle impostazioni predefinite, i coefficienti di regressione logistica sono testati utilizzando una distribuzione anziché la distribuzione normale standard. Vale a dire, GLIMMIX riporta una colonna con il rapporto (che chiamerò nel resto di questa domanda ), ma riporta anche una colonna "gradi di libertà", nonché un valore basato sull'assunzione di una distribuzione per1 β 1 / t1 zptzβ^1/var(β^1)zptzcon gradi di libertà basati sulla devianza residua - ovvero gradi di libertà = numero totale di osservazioni meno il numero di parametri. Alla fine di questa domanda fornisco un po 'di codice e output in R e SAS per dimostrazione e confronto. 2

Questo mi ha confuso, dal momento che pensavo che per i modelli lineari generalizzati come la regressione logistica, non esistesse una teoria statistica per supportare l'uso della distribuzione in questo caso. Invece pensavo che ciò che sapevamo di questo caso fosse quellot

  • z è "approssimativamente" normalmente distribuito;
  • questa approssimazione potrebbe essere scarsa per campioni di piccole dimensioni;
  • tuttavia non si può presumere che abbia una distribuzione come possiamo ipotizzare in caso di regressione normale.tzt

Ora, a livello intuitivo, mi sembra ragionevole che se è distribuito approssimativamente normalmente, potrebbe in effetti avere una distribuzione sostanzialmente " like", anche se non è esattamente . Quindi l'uso della distribuzione qui non sembra folle. Ma quello che voglio sapere è il seguente:t t tzttt

  1. Esiste infatti una teoria statistica che mostra che segue davvero una distribuzione nel caso della regressione logistica e / o di altri modelli lineari generalizzati?tzt
  2. Se non esiste una tale teoria, ci sono almeno documenti là fuori che dimostrano che assumere una distribuzione in questo modo funziona così come, o forse anche meglio, assumere una distribuzione normale?t

Più in generale, esiste un reale supporto per ciò che GLIMMIX sta facendo qui oltre all'intuizione che probabilmente è sostanzialmente sensato?

Codice R:

summary(glm(y ~ x, data=dat, family=binomial))

Uscita R:

Call:
glm(formula = y ~ x, family = binomial, data = dat)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.352  -1.243   1.025   1.068   1.156  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.22800    0.06725   3.390 0.000698 ***
x           -0.17966    0.10841  -1.657 0.097462 .  
---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1235.6  on 899  degrees of freedom
Residual deviance: 1232.9  on 898  degrees of freedom
AIC: 1236.9

Number of Fisher Scoring iterations: 4

Codice SAS:

proc glimmix data=logitDat;
    model y(event='1') = x / dist=binomial solution;
run;

Uscita SAS (modificata / abbreviata):

The GLIMMIX Procedure

               Fit Statistics

-2 Log Likelihood            1232.87
AIC  (smaller is better)     1236.87
AICC (smaller is better)     1236.88
BIC  (smaller is better)     1246.47
CAIC (smaller is better)     1248.47
HQIC (smaller is better)     1240.54
Pearson Chi-Square            900.08
Pearson Chi-Square / DF         1.00


                       Parameter Estimates

                         Standard
Effect       Estimate       Error       DF    t Value    Pr > |t|

Intercept      0.2280     0.06725      898       3.39      0.0007
x             -0.1797      0.1084      898      -1.66      0.0978

1 In realtà l'ho notato per la prima volta sui modelli di regressione logistica a effetti misti in PROC GLIMMIX, e in seguito ho scoperto che GLIMMIX lo fa anche con una regressione logistica "vaniglia".

n2 Capisco che nell'esempio mostrato di seguito, con 900 osservazioni, la distinzione qui probabilmente non fa alcuna differenza pratica. Non è proprio questo il punto. Questi sono solo dati che ho rapidamente inventato e scelto 900 perché è un bel numero. Tuttavia, mi chiedo un po 'le differenze pratiche con campioni di piccole dimensioni, ad esempio <30.n


PROC LOGISTICin SAS produce i soliti test di tipo calvo basati sul punteggio . Mi chiedo cosa abbia spinto a cambiare la nuova funzione (sottoprodotto della generalizzazione?). z
Affine,

1
SPSS sembra testare i modelli logistici di effetti misti allo stesso modo :(
Richard Border,

Risposte:


6

Esiste in realtà una teoria statistica che mostra che z segue davvero alla distribuzione nel caso della regressione logistica e / o di altri modelli lineari generalizzati?

Per quanto ne so, questa teoria non esiste. Vedo regolarmente discussioni ondulate a mano e occasionalmente esperimenti di simulazione per supportare un simile approccio per una particolare famiglia GLM o un'altra. Le simulazioni sono più convincenti degli argomenti fatti a mano.

Se non esiste una tale teoria, ci sono almeno documenti là fuori che dimostrano che assumere in questo modo funziona così come, o forse anche meglio, assumere una distribuzione normale?

Non che io ricordi di aver visto, ma ciò non dice molto.

Le mie simulazioni (limitate) su piccoli campioni suggeriscono che assumere una distribuzione t nel caso logistico potrebbe essere sostanzialmente peggiore di assumere un normale:

inserisci qui la descrizione dell'immagine

Ecco, ad esempio, i risultati (come grafici QQ) di 10000 simulazioni della statistica Wald per una regressione logistica ordinaria (cioè effetti fissi, non miscelati) su 15 osservazioni x equispaziate in cui i parametri della popolazione erano entrambi zero. La linea rossa è la linea y = x. Come vedi, in ogni caso la normale è abbastanza una buona approssimazione su una buona gamma nel mezzo - fuori a circa il 5 ° e 95 ° percentile (1.6-1.7ish), e quindi al di fuori che la distribuzione effettiva della statistica test è coda sostanzialmente più leggera del normale.

Quindi, per il caso logistico, direi che qualsiasi argomento per usare la t- piuttosto che la z- sembra improbabile che abbia successo su questa base, poiché simulazioni come queste tendono a suggerire che i risultati potrebbero tendere a essere più leggeri lato del normale, piuttosto che la coda più pesante.

[Tuttavia, ti consiglio di non fidarti delle mie simulazioni oltre che come un avvertimento a cui fare attenzione: prova alcune delle tue, forse per circostanze più rappresentative delle tue situazioni tipiche dei tuoi IV e modelli (ovviamente, devi simulare il caso in cui alcuni null sono veri per vedere quale distribuzione utilizzare sotto il null). Sarei interessato a sapere come vengono fuori per te.]


1
t

4

Ecco alcune simulazioni aggiuntive solo per espandere un po 'ciò che Glen_b ha già presentato.

[1,1]N=10,20,40,80p=0.5,0.731,0.881,0.952

ztdf=N2z=0p=1QQsim

ptppHistSim

t


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.