Nella regressione lineare, perché dovremmo includere termini quadratici quando siamo interessati solo a termini di interazione?


10

Supponiamo che io sia interessato a un modello di regressione lineare, per , perché vorrei vedere se un'interazione tra le due covariate ha un effetto su Y.

Yi=β0+β1x1+β2x2+β3x1x2

Nelle note di un corso per professori (con cui non ho contatti), si afferma: Quando si includono termini di interazione, è necessario includere i termini di secondo grado. cioè dovrebbero essere inclusi nella regressione.

Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

Perché dovremmo includere termini di secondo grado quando siamo interessati solo alle interazioni?


7
Se il modello ha , dovrebbe includere e . Ma e sono opzionali. x 1 x 2 x 2 1 x 2 2x1x2x1x2x12x22
user158565

6
L'opinione del tuo professore sembra essere insolita. Potrebbe derivare da un background specializzato o da un insieme di esperienze, perché "dovrebbe" non è assolutamente un requisito universale. Potresti trovare stats.stackexchange.com/questions/11009 di qualche interesse.
whuber

@ user158565 ciao! Posso chiederti perché dovremmo includere anche e ? Inizialmente non ci avevo pensato, ma ora che l'hai menzionato ..! x 2x1x2
sciocco126

@whuber hi! Grazie per il link! Penso che includere l'effetto principale abbia senso, ma ho difficoltà ad estenderlo al fatto di dover includere termini del secondo ordine. // user158565 Penso che il link sopra abbia risposto, grazie!
sciocco126

Per favore, pubblichi un link ai dati?
James Phillips,

Risposte:


8

Dipende dall'obiettivo dell'inferenza. Se vuoi dedurre se esiste un'interazione, ad esempio, in un contesto causale (o, più in generale, se vuoi interpretare il coefficiente di interazione), questa raccomandazione del tuo professore ha un senso e proviene dal il fatto che la mancata specificazione della forma funzionale può portare a inferenze errate sull'interazione .

Ecco un semplice esempio in cui non esiste un termine di interazione tra e nell'equazione strutturale di , tuttavia, se non si include il termine quadratico di , si potrebbe erroneamente concludere che interagisce con quando in realtà non lo fa ' t.x1x2yx1x1x2

set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))

Call:
lm(formula = y ~ x1 + x2 + x1:x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.7781 -0.8326 -0.0806  0.7598  7.7929 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.30116    0.04813   6.257 5.81e-10 ***
x1           1.03142    0.05888  17.519  < 2e-16 ***
x2           1.01806    0.03971  25.638  < 2e-16 ***
x1:x2        0.63939    0.02390  26.757  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared:  0.7935,    Adjusted R-squared:  0.7929 
F-statistic:  1276 on 3 and 996 DF,  p-value: < 2.2e-16

Questo può essere interpretato semplicemente come un caso di distorsione da variabile omessa, e qui è la variabile omessa. Se torni indietro e includi il termine quadrato nella tua regressione, l'interazione apparente scompare.x12

summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))   

Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4574 -0.7073  0.0228  0.6723  3.7135 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0419958  0.0398423  -1.054    0.292    
x1           1.0296642  0.0458586  22.453   <2e-16 ***
x2           1.0017625  0.0309367  32.381   <2e-16 ***
I(x1^2)      1.0196002  0.0400940  25.430   <2e-16 ***
x1:x2       -0.0006889  0.0313045  -0.022    0.982    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared:  0.8748,    Adjusted R-squared:  0.8743 
F-statistic:  1739 on 4 and 995 DF,  p-value: < 2.2e-16

Naturalmente, questo ragionamento si applica non solo ai termini quadratici, ma alla mancata specificazione della forma funzionale in generale. L'obiettivo qui è quello di modellare la funzione di aspettativa condizionale in modo appropriato per valutare l'interazione. Se ti stai limitando alla modellazione con regressione lineare, dovrai includere manualmente questi termini non lineari. Ma un'alternativa è usare modelli di regressione più flessibili, come ad esempio la regressione della cresta del kernel .


Grazie @CarlosCinelli, in conclusione, stai dicendo che dovremmo includere termini dello stesso grado - per tenere conto della potenziale errata specificazione della forma funzionale - e lasciare che la regressione determini quali termini sono significativi?
sciocco126

3
@KevinC la domanda principale qui è: vuoi interpretare il termine di interazione? In tal caso, la mancata specificazione del modulo funzionale è un vero problema. L'aggiunta di termini quadratici è solo un modo semplice per acquisire non linearità, ma il problema generale è la modellazione della funzione di aspettativa condizionale in modo appropriato.
Carlos Cinelli,

1
Si prega di non includere rm(list=ls())nel codice pubblicato qui! Se le persone copiano e incollano ed eseguono il codice, potrebbero avere una sorpresa ... L'ho rimosso per ora.
kjetil b halvorsen,

3

I due modelli che hai elencato nella tua risposta possono essere ri-espressi per chiarire in che modo si postula che l'effetto di dipenda da (o viceversa) in ciascun modello.X1X2

Il primo modello può essere ri-espresso in questo modo:

Y=β0+(β1+β3X2)X1+β2X2+ϵ,

il che dimostra che, in questo modello, si presume che abbia un effetto lineare su (controllando l'effetto di ) ma l'entità di questo effetto lineare - catturato dal coefficiente di pendenza di - cambia linearmente in funzione di . Ad esempio, l'effetto di su può aumentare di magnitudine all'aumentare dei valori di .X1YX2X1X2X1YX2

Il secondo modello può essere ri-espresso in questo modo:

Y=β0+(β1+β3X2)X1+β4X12+β2X2+β5X22+ϵ,

che mostra che, in questo modello, si presume che l'effetto di su (controllando l'effetto di ) sia quadratico anziché lineare. Questo effetto quadratico viene catturato includendo sia che nel modello. Mentre si assume che il coefficiente di sia indipendente da , si presume che il coefficiente di dipenda linearmente da .X1YX2X1X12X12X2X1X2

L'uso di uno dei due modelli implicherebbe che stai facendo ipotesi completamente diverse sulla natura dell'effetto di su (controllando l'effetto di ).X1YX2

Di solito, le persone si adattano al primo modello. Potrebbero quindi tracciare i residui di quel modello contro e a turno. Se i residui rivelano un modello quadratico nei residui in funzione di e / o , il modello può essere aumentato di conseguenza in modo da includere e / o (e possibilmente la loro interazione).X1X2X1X2X12X22

Si noti che ho semplificato la notazione usata per coerenza e reso esplicito il termine di errore in entrambi i modelli.


2
Ciao @IsabellaGhement, grazie per la tua spiegazione. In sintesi, non ci sono davvero "regole" in quanto dovremmo aggiungere termini quadratici se includiamo termini di interazione. Alla fine della giornata, si torna alle ipotesi che stiamo facendo sul nostro modello e ai risultati della nostra analisi (es. Grafici residui). È corretto? Grazie ancora :)!
sciocco126

2
Proprio così, Kevin! Non ci sono "regole", perché ogni set di dati è diverso ed è pensato anche per rispondere a domande diverse. Questo è il motivo per cui è importante essere consapevoli del fatto che ogni modello adatto a quel set di dati implica presupposti diversi, che devono essere supportati dai dati affinché ci fidiamo dei risultati del modello. I grafici diagnostici del modello (ad esempio, diagramma dei residui rispetto ai valori adattati) ci aiutano a verificare in che misura - se del caso - i dati supportano le ipotesi del modello.
Isabella Ghement,

1
@KevinC: Fantastico! Buone vacanze anche a te, Kevin! ☃🎉🎁🎈
Isabella Ghement,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.