Interpretazione dei termini di interazione nella regressione del logit con variabili categoriali


25

Ho i dati di un esperimento di indagine in cui gli intervistati sono stati assegnati in modo casuale a uno dei quattro gruppi:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66 

Mentre i tre gruppi di trattamento variano leggermente nello stimolo applicato, la principale distinzione a cui tengo è tra i gruppi di controllo e quelli di trattamento. Quindi ho definito una variabile fittizia Control:

> summary(df$Control)
     TRUE FALSE 
       59   191 

Nel sondaggio, agli intervistati è stato chiesto (tra le altre cose) di scegliere quale delle due cose che preferivano:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5 

Quindi, dopo aver ricevuto alcuni stimoli determinati dal loro gruppo di trattamento (e nessuno se fossero nel gruppo di controllo), agli intervistati è stato chiesto di scegliere tra le stesse due cose:

> summary(df$Choice)
  A    B 
149  101 

Voglio sapere se l'essere in uno dei tre gruppi di trattamento ha avuto un effetto sulla scelta che gli intervistati hanno fatto in quest'ultima domanda. La mia ipotesi è che gli intervistati che hanno ricevuto un trattamento hanno maggiori probabilità di scegliere Adi B.

Dato che sto lavorando con dati categorici, ho deciso di utilizzare una regressione del logit (sentiti libero di intervenire se ritieni che sia errato). Poiché gli intervistati sono stati assegnati in modo casuale, ho l'impressione che non dovrei necessariamente controllare altre variabili (ad es. Dati demografici), quindi ho lasciato fuori quelli per questa domanda. Il mio primo modello è stato semplicemente il seguente:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

Ho l'impressione che l'intercettazione sia statisticamente significativa non sia qualcosa che abbia un significato interpretabile. Ho pensato forse che avrei dovuto includere un termine di interazione come segue:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

Ora lo stato degli intervistati come in un gruppo di trattamento ha l'effetto atteso. È stata una serie di passaggi validi? Come posso interpretare il termine di interazione ControlFALSE:PreferA? Gli altri coefficienti sono ancora le probabilità del registro?


Risposte:


31

Suppongo che PreferA = 1 quando si preferisce A e 0 altrimenti e che ControlFALSE = 1 quando trattato e 0 quando controllo.

Le probabilità di preffering A quando una persona non lo ha fatto in precedenza e non ha ricevuto un trattamento (ControlFALSE = 0 e PreferA = 0) è , cioè ci sono 23 di queste persone che preferiscono A per ciascuna di tali persone che preferisce B. Quindi A è molto popolare.exp(3.135)=23

L'effetto di Treatmeant si riferisce a una persona che non ha preferito A in precedenza (PreferA = 0). In tal caso, le probabilità di base diminuiscono di un fattore o quando viene sottoposta al trattamento. Quindi la probabilità di scegliere A per coloro che sono stati trattati e che non hanno preferito A in precedenza è , quindi ci sono 2.3 persone che preferiscono A per ogni persona che preferisce B. Quindi tra questo gruppo A è ancora più popolare di B, ma meno che nel gruppo non trattato / basale.exp(-2.309)=0,099(1-0,099)×100%=-90.1%0,099*23=2.3

L'effetto della preferenza di A si riferisce in precedenza a una persona che è un controllo (ControlFALSE = 0). In tal caso, le probabilità di base diminuiscono di un fattore o quando qualcuno ha preferito A in precedenza. (Quindi quelli che hanno passato in precedenza A hanno molte meno probabilità di farlo ora. Ha senso?).006-99,4%

L'effetto di interazione confronta l'effetto del trattamento per quelle persone che hanno preferito A in precedenza e quelle che non lo hanno fatto. Se una persona ha preferito A in precedenza (PreferA = 1), il rapporto di probabilità del trattamento aumenta di un fattore . Quindi il rapporto di probabilità del trattamento per coloro che in precedenza hanno preferito A è . In alternativa, questo rapporto di probabilità di trattamento per coloro che in precedenza hanno preferito A potrebbe essere calcolato come .17.3 × .099 = 1.71 exp ( 2.850 - 2.309 )exp(2.850)=17,317,3×0,099=1.71exp(2.850-2.309)

Quindi la costante esponenziale ti dà le probabilità di base , i coefficienti esponenziali degli effetti principali ti danno i rapporti di probabilità quando l'altra variabile è uguale a 0 e il coefficiente esponenziale dei termini di interazione ti dice il rapporto con cui cambia il rapporto di probabilità .


Grazie Maarten, questo è molto utile così come la tua risposta alla mia altra domanda correlata. Vorrei solo un po 'di chiarimenti su un punto, però. Come ho accennato nell'altra mia domanda, sono preoccupato per la validità statistica di ciò che ho fatto qui a causa del fatto che ControlFALSEha un alto valore p nel primo modello e quindi piuttosto basso nel secondo modello. Applicando la tua risposta all'altra mia domanda a questo caso specifico, hai detto che ciò potrebbe accadere se Controlavesse avuto un effetto negativo su un gruppo Prefere un effetto positivo sull'altro.
Pigmalione,

(ha esaurito lo spazio) Questa interpretazione ha senso qui? Non sono esattamente sicuro di come applicarlo direttamente.
Pigmalione,

L'effetto di ControlFALSEnel primo modello è l'effetto del trattamento sia per quelli che A preferito in precedenza e quelli che non lo hanno fatto, mentre l'effetto nel secondo modello è solo l'effetto del trattamento per coloro che non hanno preferito A in precedenza. Se va bene o no non è una questione statistica, ma se ha o meno un senso sostanziale.
Maarten Buis,

@MaartenBuis Grande spiegazione. Come faresti i calcoli equivalenti per gli intervalli di confidenza delle stime? Per facilità di interpretazione, ho generalmente stratificato i modelli logistici (ad es. In base a una preferenza precedente in questo esempio) e ho usato il termine di interazione come "test statistico per una differenza significativa in
sala operatoria

2

Ho anche trovato questo documento utile per interpretare l'interazione nella regressione logistica:

Chen, JJ (2003). Comunicazione di informazioni complesse: l'interpretazione dell'interazione statistica nell'analisi della regressione logistica multipla . Rivista americana di sanità pubblica , 93 (9), 1376-1377.


4
Ho fornito un riferimento completo (titolo, autore, data, giornale, ecc.), Il che significa che il contributo sarà comunque utile se l'indirizzo del collegamento cambia. Ma potresti ampliarlo per riassumere i contenuti? Altrimenti questo è davvero più un commento che una risposta: preferiamo che le nostre risposte siano autosufficienti, quindi sono resistenti al "rot-link". In alternativa, possiamo convertirlo in un commento per te.
Silverfish,

Grazie. Stavo collegando l'NCBI, quindi ho pensato che sarebbe andato tutto bene. Sono d'accordo con le modifiche. Grazie!
deepseas,

0

La mia preferenza, quando si tenta di interpretare le interazioni nella regressione logistica, è quella di esaminare le probabilità previste per ogni combinazione di variabili categoriali. Nel tuo caso, questo sarebbe solo 4 probabilità:

  1. Preferisci A, controlla vero
  2. Preferisci A, controlla false
  3. Preferisci B, controlla vero
  4. Preferisci B, controlla false

Quando ho variabili continue, di solito guardo il valore previsto al quartile mediano, 1o e 3o.

Sebbene ciò non influisca direttamente sull'interpretazione di ciascun coefficiente, trovo che spesso consente a me (e ai miei clienti) di vedere cosa sta succedendo in modo chiaro.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.