Interpretazione dei coefficienti di un'interazione tra variabile categorica e continua


10

Ho una domanda sull'interpretazione dei coefficienti di un'interazione tra variabile continua e categoriale. ecco il mio modello:

model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), 
               data=base_708)

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)               21.4836     2.0698  10.380  < 2e-16 ***
lg_hag                     8.5691     3.7688   2.274  0.02334 *  
raceblack                 -8.4715     1.7482  -4.846 1.61e-06 ***
racemexican               -3.0483     1.7073  -1.785  0.07469 .  
racemulti/other           -4.6002     2.3098  -1.992  0.04687 *  
pdg                        2.8038     0.4268   6.570 1.10e-10 ***
sexfemale                  4.5691     1.1203   4.078 5.15e-05 ***
as.factor(educa)2         13.8266     2.6362   5.245 2.17e-07 ***
as.factor(educa)3         21.7913     2.4424   8.922  < 2e-16 ***
as.factor(educa)4         19.0179     2.5219   7.541 1.74e-13 ***
as.factor(educa)5         23.7470     2.7406   8.665  < 2e-16 ***
lg_hag:as.factor(educa)2 -21.2224     6.5904  -3.220  0.00135 ** 
lg_hag:as.factor(educa)3 -19.8083     6.1255  -3.234  0.00129 ** 
lg_hag:as.factor(educa)4  -8.5502     6.6018  -1.295  0.19577    
lg_hag:as.factor(educa)5 -17.2230     6.3711  -2.703  0.00706 ***

diciamo che l'equazione del modello è:

E [cog] = a + b1 (lg_hag) + b2 (educa2 * lg_hag) + b3 (educa3 * lg_hag) + b4 (educa4 * lg_hag) + b5 (pdg, centered) + altri covar, dove

b1 = difference in cog  with higher lg_hag among lowest education (coded as 1)
b1 + b2 = difference in cog with higher lg_hag among middle education (coded as 2)
b1 + b3 = difference in cog with higher lg_hag among high education (coded as 3)
b1 + b3 = difference in cog with higher lg_hag among very high education (coded as 4)
b5 = difference in cog with each unit increase in pdg

La mia domanda è: se la mia interpretazione è corretta, come costruire intervalli di confidenza per ogni stima di effetto delle interazioni (ad esempio: b1 + b2) dagli intervalli di confidenza di b1 e b2.


non molto familiare su come farlo in R. supponiamo che in sas sia possibile ottenere il risultato con la frase "preventivo", fare riferimento a support.sas.com/documentation/cdl/en/statug/63033/HTML/default/…
boomean

Risposte:


8

La tua interpretazione dei coefficienti del modello non è completamente accurata. Vorrei prima riassumere i termini del modello.

Variabili categoriali (fattori): , s e x , ed e d u c aracesexeduca

Il fattore raceha quattro livelli: .race={white,black,mexican,multi/other}

Il fattore sexha due livelli: .sex={male,female}

Il fattore educaha cinque livelli: .educa={1,2,3,4,5}

Per impostazione predefinita, R utilizza i contrasti di trattamento per le variabili categoriali. In questi contrasti, il primo valore del fattore viene utilizzato come livello di riferimento e i valori rimanenti vengono testati rispetto al riferimento. Il numero massimo di contrasti per una variabile categoriale è uguale al numero di livelli meno uno.

I contrasti per raceconsentire di verificare le seguenti differenze: , r a c e = m e x i c a n v s . r a c e = w h i t e , e r a c erace=black vs.race=whiterace=mexican vs.race=white .race=multi/other vs.race=white

Per il fattore , il livello di riferimento è 1 , lo schema dei contrasti è analogo. Questi effetti possono essere interpretati come la differenza nella variabile dipendente. Nel tuo esempio, il valore medio di è 13,8266 unità in più per e d u c a = 2 rispetto a e d u c a = 1 ( ).educa1cog13.8266educa=2educa=1as.factor(educa)2

Una nota importante: se in un modello sono presenti contrasti di trattamento per una variabile categoriale, la stima di ulteriori effetti si basa sul livello di riferimento della variabile categorica se sono incluse anche le interazioni tra ulteriori effetti e la variabile categoriale. Se la variabile non fa parte di un'interazione, il suo coefficiente corrisponde alla media delle singole pendenze dei sottoinsiemi di questa variabile lungo tutte le restanti variabili categoriali. Gli effetti di e e d u c un corrispondono a effetti medi rispetto ai livelli di fattore di altre variabili. Per testare gli effetti complessivi di r a c e , dovresti andarteneraceeducarace e s e x fuori dal modello.educasex

Variabili numeriche: e p d glg_hagpdg

Entrambi lg_hage pdgsono variabili numeriche quindi i coefficienti rappresentano la variazione nella variabile dipendente associata con un aumento di nel predittore.1

pdglg_hageducaeduca=1lg_hag

lg_hag×educa

lg_hageducalg_hageducaeduca=1

lg_hag:as.factor(educa)2-21.2224lg_hag21.2224educa=2educa=1


"Questi coefficienti di interazione valgono anche race=whitee sex=malesolo". Sei sicuro di questo? Lo chiedo perché non racene sexè in interazione con il lg_hag×educatermine ... sto guardando diversi testi non vedo esplicitamente indicato.
landroni

2
@landroni Le pendenze sono stimate per il punto in cui sono rimasti tutti i predittori rimanenti pari a 0.
Sven Hohenstein

Sì, anche questa è la mia comprensione. Tutti gli altri predittori sono mantenuti costanti, il che significa che i fattori sono fissati al loro livello di base. Ma qui sta il mio enigma: ho guardato diversi libri che sembrano quasi sorvolare su questa sfumatura sottile ma di vasta portata. Inoltre, gli articoli spesso "controllano l'industria" traggono comunque conclusioni come se i coefficienti fossero incondizionati sull'intero campione, invece di individuare che questo è solo per il livello di base. Vedi anche: stats.stackexchange.com/questions/146665/ …
landroni

1
"Se in un modello sono presenti contrasti di trattamento per una variabile categoriale, la stima di ulteriori effetti si basa sul livello di riferimento della variabile categoriale." Dopo ulteriori considerazioni, non sono convinto (o non seguo del tutto la tua argomentazione). Sembrerebbe implicare che la stima della beta per esempio pdgdipenda dal livello di riferimento, che chiaramente non è il caso. Se cambio il livello di riferimento di uno dei fattori (ad es. sex), La stima per pdgNON cambierà ...
landroni

1
@landroni Grazie per averci segnalato. Hai ragione, questa affermazione è fuorviante. In realtà, vale solo per i predittori che fanno anche parte dei termini di interazione con variabili categoriali. Pertanto, la stima di non dipende in pdgeffetti dalla specifica dei contrasti. Modificherò la risposta di conseguenza.
Sven Hohenstein,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.