Ho i dati di un esperimento di indagine in cui gli intervistati sono stati assegnati in modo casuale a uno dei quattro gruppi:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
Mentre i tre gruppi di trattamento variano leggermente nello stimolo applicato, la principale distinzione a cui tengo è tra i gruppi di controllo e quelli di trattamento. Quindi ho definito una variabile fittizia Control
:
> summary(df$Control)
TRUE FALSE
59 191
Nel sondaggio, agli intervistati è stato chiesto (tra le altre cose) di scegliere quale delle due cose che preferivano:
> summary(df$Prefer)
A B NA's
152 93 5
Quindi, dopo aver ricevuto alcuni stimoli determinati dal loro gruppo di trattamento (e nessuno se fossero nel gruppo di controllo), agli intervistati è stato chiesto di scegliere tra le stesse due cose:
> summary(df$Choice)
A B
149 101
Voglio sapere se l'essere in uno dei tre gruppi di trattamento ha avuto un effetto sulla scelta che gli intervistati hanno fatto in quest'ultima domanda. La mia ipotesi è che gli intervistati che hanno ricevuto un trattamento hanno maggiori probabilità di scegliere A
di B
.
Dato che sto lavorando con dati categorici, ho deciso di utilizzare una regressione del logit (sentiti libero di intervenire se ritieni che sia errato). Poiché gli intervistati sono stati assegnati in modo casuale, ho l'impressione che non dovrei necessariamente controllare altre variabili (ad es. Dati demografici), quindi ho lasciato fuori quelli per questa domanda. Il mio primo modello è stato semplicemente il seguente:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
Ho l'impressione che l'intercettazione sia statisticamente significativa non sia qualcosa che abbia un significato interpretabile. Ho pensato forse che avrei dovuto includere un termine di interazione come segue:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Ora lo stato degli intervistati come in un gruppo di trattamento ha l'effetto atteso. È stata una serie di passaggi validi? Come posso interpretare il termine di interazione ControlFALSE:PreferA
? Gli altri coefficienti sono ancora le probabilità del registro?