Interpretazione dei beta quando ci sono più variabili categoriche


18

Comprendo il concetto che è la media per quando la variabile categoriale è uguale a 0 (o è il gruppo di riferimento), dando l'interpretazione finale che il coefficiente di regressione è la differenza nella media delle due categorie. Anche con> 2 categorie suppongo che ogni spieghi la differenza tra la media di quella categoria e il riferimento. ββ^0β^

Ma cosa accadrebbe se più variabili venissero introdotte nel modello multivariabile? Ora, cosa significa l'intercettazione dato che non ha senso che sia la media per il riferimento di due variabili categoriche? Un esempio potrebbe essere se sesso (M (ref) / F) e razza (white (ref) / black) fossero entrambi in un modello. Il la media solo per i maschi bianchi? Come si interpretano altre possibilità?β^0

Come nota separata: le dichiarazioni di contrasto servono come metodo per studiare la modifica dell'effetto? O semplicemente per vedere l'effetto ( ) a diversi livelli?β^


Come nota terminologica, "multivariato" significa più variabili di risposta , non più variabili predittive (vedere qui ). Inoltre, non seguo la tua ultima domanda.
gung - Ripristina Monica

Grazie per questo chiarimento. Ottenere la lingua corretta è importante per me! Suppongo che non riesco proprio a capire perché le dichiarazioni di contrasto siano utilizzate affatto dal momento che si potrebbe sempre impostare la variabile di riferimento su quella con cui si sta contrastando?
Renee,

1
Immagino che potresti semplicemente ri-montare il modello con diversi livelli di riferimento. Non sono sicuro che sia più conveniente. Con i contrasti, è anche possibile specificare un insieme di contrasti ortogonali o un contrasto implicito teoricamente (una combinazione di B&C) rispetto al test.
gung - Ripristina Monica

Risposte:


19

Hai ragione sull'interpretazione dei beta quando esiste una singola variabile categoriale con livelli . Se c'erano più variabili categoriali (e non c'erano termini di interazione), l'intercetta ( ) è la media del gruppo che costituisce il livello di riferimento per entrambe (tutte) le variabili categoriali. Utilizzando lo scenario di esempio, considera il caso in cui non vi è interazione, quindi i beta sono: Kβ 0β^0

  • β^0 : la media dei maschi bianchi
  • β^Femun'le : la differenza tra la media delle femmine e la media dei maschi
  • β^Blun'cK : la differenza tra la media dei neri e la media dei bianchi

Possiamo anche pensare a questo in termini di come calcolare i vari mezzi del gruppo:

x¯White Males=β^0x¯White Femun'leS=β^0+β^Femun'leX¯Blun'cK Mun'leS=β^0+β^Blun'cKX¯Blun'cK Femun'leS=β^0+β^Femun'le+β^Blun'cK

Se avessi un termine di interazione, verrebbe aggiunto alla fine dell'equazione per le femmine nere. (L'interpretazione di un tale termine di interazione è piuttosto contorta, ma io la percorro qui: Interpretazione del termine di interazione .)


Aggiornamento : per chiarire i miei punti, consideriamo un esempio predefinito, codificato R.

d = data.frame(Sex  =factor(rep(c("Male","Female"),times=2), levels=c("Male","Female")),
               Race =factor(rep(c("White","Black"),each=2),  levels=c("White","Black")),
               y    =c(1, 3, 5, 7))
d
#      Sex  Race y
# 1   Male White 1
# 2 Female White 3
# 3   Male Black 5
# 4 Female Black 7

inserisci qui la descrizione dell'immagine

I mezzi yper queste variabili categoriali sono:

aggregate(y~Sex,  d, mean)
#      Sex y
# 1   Male 3
# 2 Female 5
## i.e., the difference is 2
aggregate(y~Race, d, mean)
#    Race y
# 1 White 2
# 2 Black 6
## i.e., the difference is 4

Possiamo confrontare le differenze tra questi mezzi con i coefficienti di un modello montato:

summary(lm(y~Sex+Race, d))
# ...
# Coefficients:
#             Estimate Std. Error  t value Pr(>|t|)    
# (Intercept)        1   3.85e-16 2.60e+15  2.4e-16 ***
# SexFemale          2   4.44e-16 4.50e+15  < 2e-16 ***
# RaceBlack          4   4.44e-16 9.01e+15  < 2e-16 ***
# ...
# Warning message:
#   In summary.lm(lm(y ~ Sex + Race, d)) :
#   essentially perfect fit: summary may be unreliable

La cosa da riconoscere in questa situazione è che, senza un termine di interazione, stiamo assumendo linee parallele. Pertanto, il Estimateper il (Intercept)è la media dei maschi bianchi. Il Estimatefor SexFemaleè la differenza tra la media delle femmine e la media dei maschi. Il Estimatefor RaceBlackè la differenza tra la media dei neri e la media dei bianchi. Ancora una volta, poiché un modello senza un termine di interazione presuppone che gli effetti siano strettamente additivi (le linee sono strettamente parallele), la media delle femmine nere è quindi la media dei maschi bianchi più la differenza tra la media delle femmine e la media dei maschi più la differenza tra la media dei neri e la media dei bianchi.


Grazie! Molto chiaro e utile. Alla fine menzioni i termini di interazione. Se si fa un termine di interazione, allora come altera i beta (ovvero i nuovi beta dal modello dei termini di interazione)? So che il valore p per il termine di interazione è importante, ma il termine di interazione beta ha un'interpretazione significativa? Grazie ancora per il tuo aiuto!
Renee,

1
Nel caso di un'interazione, i beta dell'effetto principale si riferiscono solo alle differenze all'interno del livello di riferimento dell'altro fattore. Ad esempio, è solo la differenza tra e . β^Femun'leX¯Whiote Mun'leX¯Whiote Femun'le
gung - Ripristina Monica

Ha senso. Grazie! e viene alterato dal modello senza termine di interazione a causa del termine di interazione che migliora l'effetto principale? Significa che se non ci fosse interazione il termine del principale effetto sarebbe teoricamente lo stesso?
Renee,

Se l'effetto di interazione fosse esattamente 0 (con decimali infiniti), non solo nella popolazione, ma anche nel campione, l'effetto beta principale sarebbe lo stesso in un modello senza il termine di interazione.
gung - Ripristina Monica

1
@ hans0l0, sarebbe meglio come una nuova domanda piuttosto che informazioni sepolte qui nei commenti; potresti collegarti a questo per il contesto. In breve, è la media dei livelli di riferimento quando tutte le variabili continue sono = 0.
gung - Ripristina Monica

6

β^0β^

Se estendiamo un po 'il tuo esempio per includere un terzo livello nella categoria di gara (diciamo asiatico ) e scegliamo White come riferimento, allora avresti:

  • β^0=X¯Whiote
  • β^Blun'cK=X¯Blun'cK-X¯Whiote
  • β^UNSioun'n=X¯UNSioun'n-X¯Whiote

β^

  • X¯UNSioun'n=β^UNSioun'n+β^0

Sfortunatamente nel caso di più variabili categoriali, l'interpretazione corretta dell'intercettazione non è più chiara (vedi nota alla fine). Quando ci sono n categorie, ognuna con più livelli e un livello di riferimento (ad esempio White and Male nell'esempio), la forma generale per l'intercettazione è:

β^0=Σio=1nX¯reference,io-(n-1)X¯,
X¯reference,io è la media del livello di riferimento della i-esima variabile categoriale,
X¯ è la media dell'intero set di dati

β^

Se torniamo al tuo esempio, otterremmo:

  • β^0=X¯Whiote+X¯Mun'le-X¯
  • β^Blun'cK=X¯Blun'cK-X¯Whiote
  • β^UNSioun'n=X¯UNSioun'n-X¯Whiote
  • β^Femun'le=X¯Femun'le-X¯Mun'le

β^

β^β^0, β^Blun'cK, β^UNSioun'nβ^Femun'le

Esempio numerico

Vorrei prendere in prestito da @Gung per un esempio numerico fisso:

d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
    Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
    y    =c(0, 3, 7, 8, 9, 10))
d

#      Sex  Race  y
# 1   Male White  0
# 2 Female White  3
# 3   Male Black  7
# 4 Female Black  8
# 5   Male Asian  9
# 6 Female Asian 10

β^

aggregate(y~1,  d, mean)

#          y
# 1 6.166667

aggregate(y~Sex,  d, mean)

#      Sex        y
# 1   Male 5.333333
# 2 Female 7.000000

aggregate(y~Race, d, mean)

#    Race   y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5

Possiamo confrontare questi numeri con i risultati della regressione:

summary(lm(y~Sex+Race, d))

# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)   0.6667     0.6667   1.000   0.4226
# SexFemale     1.6667     0.6667   2.500   0.1296
# RaceBlack     6.0000     0.8165   7.348   0.0180
# RaceAsian     8.0000     0.8165   9.798   0.0103

β^β^0

β^0=X¯Whiote+X¯Mun'le-X¯
1.5 + 5.333333 - 6.166667
# 0.66666

Nota sulla scelta del contrasto

β^

β^contr.Sumβ^contr.Sum

  • β^0contr.Sum=X¯
  • β^iocontr.Sum=X¯io-X¯

Se torniamo all'esempio precedente, avresti:

  • β^0contr.Sum=X¯
  • β^Whiotecontr.Sum=X¯Whiote-X¯
  • β^Blun'cKcontr.Sum=X¯Blun'cK-X¯
  • β^UNSioun'ncontr.Sum=X¯UNSioun'n-X¯
  • β^Mun'lecontr.Sum=X¯Mun'le-X¯
  • β^Femun'lecontr.Sum=X¯Femun'le-X¯

β^contr.Sum

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.