Qual è la differenza tra regressione logistica e regressione della risposta frazionaria?


13

Per quanto ne so, la differenza tra il modello logistico e il modello di risposta frazionaria (frm) è che la variabile dipendente (Y) in cui frm è [0,1], ma la logistica è {0, 1}. Inoltre, frm utilizza lo stimatore di quasi-verosimiglianza per determinare i suoi parametri.

Normalmente, possiamo usare glmper ottenere i modelli logistici da glm(y ~ x1+x2, data = dat, family = binomial(logit)).

Per prima cosa, cambiamo family = binomial(logit)in family = quasibinomial(logit).

Ho notato che possiamo anche usare family = binomial(logit)per ottenere il parametro di frm poiché fornisce gli stessi valori stimati. Vedi il seguente esempio

library(foreign)
mydata <- read.dta("k401.dta")


glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = binomial('logit'))
summary(glm.bin)

ritorno,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = binomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.074e+00  8.869e-02  12.110  < 2e-16 ***
mrate        5.734e-01  9.011e-02   6.364 1.97e-10 ***
age          3.089e-02  5.832e-03   5.297 1.17e-07 ***
sole         3.636e-01  9.491e-02   3.831 0.000128 ***
totemp      -5.780e-06  2.207e-06  -2.619 0.008814 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: 1997.6

Number of Fisher Scoring iterations: 6

E per family = quasibinomial('logit'),

glm.quasi <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = quasibinomial('logit'))
summary(glm.quasi)

ritorno,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = quasibinomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.074e+00  4.788e-02  22.435  < 2e-16 ***
mrate        5.734e-01  4.864e-02  11.789  < 2e-16 ***
age          3.089e-02  3.148e-03   9.814  < 2e-16 ***
sole         3.636e-01  5.123e-02   7.097 1.46e-12 ***
totemp      -5.780e-06  1.191e-06  -4.852 1.26e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.2913876)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 6

La beta stimata da entrambi familyè la stessa, ma la differenza è i valori SE. Tuttavia, per ottenere la SE corretta, dobbiamo usare library(sandwich)come in questo post .

Ora, le mie domande:

  1. Qual è la differenza tra questi due codici?
  2. Frm sta per ottenere una solida SE?

Se la mia comprensione non è corretta, ti preghiamo di dare alcuni suggerimenti.

Risposte:


11

Se la tua domanda è: qual è la differenza tra questi due codici?

Uno sguardo ?glmdice See family for details of family functionse uno sguardo ?familyrivela la seguente descrizione:

Le famiglie quasibinomiale e quasipoisson differiscono dalle famiglie binomiale e di poisson solo in quanto il parametro di dispersione non è fissato su uno, quindi possono modellare l'eccessiva dispersione.

Questo è anche ciò che vedi nel tuo output. E questa è la differenza tra entrambi i modelli / codici.

Se la tua domanda è: qual è la differenza tra la regressione logistica e la regressione della risposta frazionaria?

Come identificato correttamente, il modello è logistico se le variabili dipendenti sono 0 o 1. Papke e Wooldridge hanno dimostrato che è possibile utilizzare un GLM di questo modulo per le frazioni e anche per la stima dei parametri, ma è necessario calcolare robusti errori standard. Ciò non è necessario per la regressione logistica e, in effetti, alcune persone pensano che non si debbano calcolare solidi errori standard nei modelli probit / logit. Anche se questo è un dibattito diverso.

La base teorica deriva da un famoso articolo di Gourieroux, Monfort e Trognonin Econometrica nel 1984. Mostrano che (in alcune condizioni di regolarità ecc.) i parametri di massima verosimiglianza ottenuti massimizzando una verosimiglianza che appartiene alla famiglia esponenziale lineare sono stime coerenti per parametri appartenenti a qualsiasi altra verosimiglianza nella famiglia esponenziale lineare. Quindi, in un certo senso, stiamo usando la distribuzione logistica qui anche se non è esattamente quella corretta, ma i parametri sono ancora coerenti con i parametri che desideriamo ottenere. Quindi, se la tua domanda nasce dall'osservazione che stiamo usando la stessa funzione di verosimiglianza per stimare modelli di risposta sia logistici che frazionari, tranne per il fatto che scambiamo la natura della variabile dipendente, allora questa è l'intuizione.


come possiamo misurare le prestazioni frm? Possiamo usare MSE come regressione lineare?
novizio

1
Questa è una domanda molto diversa. Si prega di pubblicarlo come nuovo.
coffeinjunky,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.