Regressione logistica: variabili di risposta binomiale e di Bernoulli


32

Voglio eseguire la regressione logistica con la seguente risposta binomiale e con e come miei predittori. X1X2

inserisci qui la descrizione dell'immagine

Posso presentare gli stessi dati delle risposte di Bernoulli nel seguente formato.

inserisci qui la descrizione dell'immagine

Gli output di regressione logistica per questi 2 set di dati sono sostanzialmente gli stessi. I residui di devianza e AIC sono diversi. (La differenza tra la deviazione nulla e la deviazione residua è la stessa in entrambi i casi - 0,228.)

Di seguito sono riportati gli output di regressione di R. I set di dati sono chiamati binom.data e bern.data.

Ecco l'output binomiale.

Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, 
    family = binomial, data = binom.data)

Deviance Residuals: 
[1]  0  0  0

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance:  2.2846e-01  on 2  degrees of freedom
Residual deviance: -4.9328e-32  on 0  degrees of freedom
AIC: 11.473

Number of Fisher Scoring iterations: 4

Ecco l'output di Bernoulli.

Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -1.3537   0.7585   0.9281   1.0108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 15.276  on 11  degrees of freedom
Residual deviance: 15.048  on  9  degrees of freedom
AIC: 21.048

Number of Fisher Scoring iterations: 4

Le mie domande:

1) Vedo che le stime puntuali e gli errori standard tra i 2 approcci sono equivalenti in questo caso particolare. Questa equivalenza è vera in generale?

2) Come si può giustificare matematicamente la risposta alla domanda n. 1?

3) Perché i residui di devianza e AIC sono diversi?

Risposte:


24

1) Sì È possibile aggregare / disaggregare (?) I dati binomiali di individui con le stesse covariate. Ciò deriva dal fatto che la statistica sufficiente per un modello binomiale è il numero totale di eventi per ciascun vettore di covariata; e il Bernoulli è solo un caso speciale del binomio. Intuitivamente, ogni prova di Bernoulli che costituisce un risultato binomiale è indipendente, quindi non dovrebbe esserci alcuna differenza tra il conteggio come un singolo risultato o come prove individuali separate.

2) Supponiamo che abbiamo vettori covariati unici x 1 , x 2 , ... , x n , ciascuno dei quali ha un risultato binomiale su prove N i , ovvero Y iB i n ( N i , p i ) Hai specificato un modello di regressione logistica, quindi l o g i t ( p i ) = K k = 1 β k x i knx1,x2,,xnNi

YiBin(Ni,pi)
logit(pi)=k=1Kβkxik
anche se vedremo più avanti che questo non è importante.

La probabilità logaritmica per questo modello è e lo massimizziamo rispetto a (nei termini ) per ottenere le nostre stime dei parametri.βpi

(β;Y)=i=1nlog(NiYi)+Yilog(pi)+(NiYi)log(1pi)
βpi

Ora, considera che per ogni , abbiamo diviso il risultato binomiale in singoli risultati Bernoulli / binari, come hai fatto. In particolare, crea Cioè, i primi sono 1 e gli altri sono 0. Questo è esattamente quello che hai fatto, ma avresti potuto ugualmente fare il primo come 0 e il resto come 1 o qualsiasi altro ordinamento, giusto?i=1,,nNi

Zi1,,ZiYi=1
Zi(Yi+1),,ZiNi=0
Yi(NiYi)

Il tuo secondo modello dice che con lo stesso modello di regressione per cui sopra. La probabilità logaritmica per questo modello è e grazie al modo in cui abbiamo definito le nostre s, questo può essere semplificato in che dovrebbe apparire piuttosto familiare.

ZijBernoulli(pi)
pi
(β;Z)=i=1nj=1NiZijlog(pi)+(1Zij)log(1pi)
Zij
(β;Y)=i=1nYilog(pi)+(NiYi)log(1pi)

Per ottenere le stime nel secondo modello, massimizziamo questo rispetto a . L'unica differenza tra questa e la prima verosimiglianza è il termine , che è costante rispetto a , e quindi non influisce sulla massimizzazione e otterremo le stesse stime.βlog(NiYi)β

3) Ogni osservazione ha una devianza residua. Nel modello binomiale, sono dove è la probabilità stimata dal tuo modello. Nota che il tuo modello binomiale è saturo (0 gradi residui di libertà) e ha una perfetta aderenza: per tutte le osservazioni, quindi per tutti .

Di=2[Yilog(Yi/Nip^i)+(NiYi)log(1Yi/Ni1p^i)]
p^ip^i=Yi/NiDi=0i

Nel modello di Bernoulli, A parte il fatto che ora avrai deviazione (anziché come con i dati binomiali), ciascuno di essi sarà o seconda che o , e ovviamente non sono gli stessi di cui sopra. Anche se sommi questi su per ottenere una somma di residui di devianza per ogni , non ottieni lo stesso:

Dij=2[Zijlog(Zijp^i)+(1Zij)log(1Zij1p^i)]
i=1nNin
Dij=2log(p^i)
Dij=2log(1p^i)
Zij=10ji
Di=j=1NiDij=2[Yilog(1p^i)+(NiYi)log(11p^i)]

Il fatto che l'AIC sia diverso (ma il cambiamento di devianza non lo è) ritorna al termine costante che era la differenza tra le probabilità logaritmiche dei due modelli. Quando si calcola la deviazione, questo viene annullato perché è lo stesso in tutti i modelli basati sugli stessi dati. L'AIC è definito come e quel termine combinatorio è la differenza tra s:

AIC=2K2

AICBernoulliAICBinomial=2i=1nlog(NiYi)=9.575

Grazie per la tua risposta molto dettagliata, Mark! Ci scusiamo per il ritardo nella mia risposta - ero in vacanza. 3) Dato che i 2 modelli danno risultati diversi per i residui di devianza e AIC, quale è corretto o migliore? a) A quanto ho capito, le osservazioni con una devianza residua superiore a due possono indicare una mancanza di adattamento, quindi i valori assoluti dei residui di deviazione contano. b) Poiché l'AIC viene utilizzato per confrontare l'adattamento tra modelli diversi, forse non esiste un AIC "corretto". Vorrei solo confrontare gli AIC di 2 modelli binomiali o 2 modelli di Bernoulli.
Uno scienziato l'

a) Per i dati binari, sarà> 2 se ( e ) o ( e ). Quindi, anche se il modello si adatta ai dati binomio perfetto per il ° covariata vettore (cioè , per esempio), allora la s che hai arbitrariamente assegnata come essere 1 avrà . Per questo motivo, penso che i residui di devianza abbiano più senso con i dati binomiali. Inoltre, la stessa deviazione per i dati binari non ha le sue solite proprietà ... Z i j = 1 p i < e - 1 = 0,368 Z i j = 0 p i > 1 - e - 1 = 0,632 i Y i / N i = p i < 0,368 Y i Z i j D i j > 2DijZij=1p^i<e1=0.368Zij=0p^i>1e1=0.632iYi/Ni=p^i<0.368Yi ZijDij>2
Mark


1
b) Sì, il confronto tra tra modelli ha senso solo quando i dati utilizzati per adattarsi a ciascun modello sono esattamente gli stessi. Quindi confronta Bernoulli con Bernoulli o binomiale con binomiale. AIC
Segna il

Grazie Marco! Le tue risposte ponderate e dettagliate sono molto apprezzate!
Uno scienziato il

0

Voglio solo fare commenti sull'ultimo paragrafo, “Il fatto che l'AIC sia diverso (ma il cambiamento di devianza non lo è) ritorna al termine costante che era la differenza tra le probabilità logaritmiche dei due modelli. Quando si calcola il cambiamento di devianza, questo viene annullato perché è lo stesso in tutti i modelli basati sugli stessi dati. "Sfortunatamente, questo non è corretto per il cambiamento di devianza. La devianza non include il termine costante Ex (costante extra termine nella probabilità logaritmica per i dati binomiali). Pertanto, il cambiamento di devianza non ha nulla a che fare con il termine costante EX. La devianza confronta un determinato modello con il modello completo. Il fatto che le deviazioni siano diverse da Bernoulli / binario e la modellazione binomiale, ma il cambiamento di devianza non è dovuto alla differenza nei valori di verosimiglianza del modello completo. Questi valori vengono annullati nel calcolo delle variazioni di devianza. Pertanto, i modelli di regressione logistica binomiale e di Bernoulli producono cambiamenti di devianza identici purché le probabilità previste pij e pi siano le stesse. In realtà, questo è vero per il probit e altre funzioni di collegamento.

Lascia che lBm e lBf denotino i valori di verosimiglianza logico adattando il modello m e il modello completo f ai dati di Bernoulli. La devianza è quindi

    DB=2(lBf - lBm)=-2(lBm – lBf).

Sebbene lBf sia zero per i dati binari, non abbiamo semplificato il DB e mantenuto così com'è. La deviazione dalla modellazione binomiale con le stesse covariate è

    Db=2(lbf+Ex – (lbm+Ex))=2(lbf – lbm) = -2(lbm – lbf)

dove lbf + Ex e lbm + Ex sono i valori di verosimiglianza logici dei modelli full e m adattati ai dati binomiali. Il termine extra costante (Ex) scompare dal lato destro del Db. Ora guarda il cambiamento nelle deviazioni dal Modello 1 al Modello 2. Dalla modellazione di Bernoulli, abbiamo un cambiamento nella devianza di

    DBC=DB2-DB1=2(lBf – lBm2)-2(lBf – lBm1) =2(lBm1 – lBm2).

Allo stesso modo, il cambiamento di deviazione dall'adattamento binomiale è

    DbC=DB2-DB1=2(lbf – lbm2)-2(lbf – lbm1) =2(lbm1 – lbm2).

Segue immediatamente che i cambiamenti di devianza sono liberi dai contributi di verosimiglianza da modelli completi, lBf e lbf. Pertanto, otterremo lo stesso cambiamento di devianza, DBC = DbC, se lBm1 = lbm1 e lBm2 = lbm2. Sappiamo che è il caso qui e che il motivo per cui stiamo ottenendo gli stessi cambiamenti di devianza da Bernoulli e dalla modellazione binomiale. La differenza tra lbf e lBf porta alle diverse deviazioni.


6
Potresti modificare la formattazione della tua risposta? Purtroppo in questa forma non è molto leggibile. Vorrei incoraggiarvi a frenare il testo nei paragrafi e aggiungere la formattazione alle formule. Inoltre, non è sempre chiaro cosa significano le abbreviazioni che usi. TEX
Tim

Mille grazie, Tim. Non ho familiarità con la formattazione TEX. Inizialmente ho digitato Word, ma non sono stato in grado di copiare e incollare. Ho separato le equazioni dal testo.
Saei,

Non sono sicuro che tu abbia letto male quel paragrafo: ho detto "l'AIC è diverso ( ma il cambiamento di devianza non lo è )", e il resto del paragrafo spiega perché l'AIC è diverso tra i due modelli. Non ho sostenuto che il cambiamento nella devianza dipendesse dal termine costante. In effetti, ho detto " Nel calcolare il cambiamento di devianza, questo [il termine costante] viene annullato perché è lo stesso in tutti i modelli basati sugli stessi dati "
Marco

Il problema è che c'è solo un "termine costante" nel testo ed è il termine combinatorio (coefficiente binomiale). Quando dici che "questo" è cancellato, implica che il termine costante è incluso nella devianza. La differenza tra deviazioni dai modelli di Bernoulli e binomiali è il contributo del valore di verosimiglianza lbf dal pieno del modello. L'lbf non varia a seconda dei diversi modelli binomiali sugli stessi dati e viene cancellato quando si calcola la variazione di devianza.
Saei

Ah ok capisco cosa intendi. Ho modificato la mia risposta di conseguenza, lasciando nel riferimento al cambiamento di devianza perché il richiedente l'ha menzionata specificamente. Il cambiamento nella devianza è lo stesso perché la devianza non dipende dal termine costante.
Segna il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.