La correlazione tra variabili in un'interazione è importante?


8

Supponiamo di adattare un modello . Ci sono implicazioni pratiche per la stima dell'effetto di interazione se e sono correlati?y=x1+x2+x1×x2x1x2

Capisco che potrebbero esserci problemi di collinearità se e sono molto correlati ma ciò non dovrebbe influire sul termine di interazione giusto?x1x2


1
Sembra che tu stia informazioni sulla correlazione tra e quando e sono correlati. Un modo per avere un'idea di ciò che può essere dedotto è notare che sebbene l'aggiunta di una costante (diciamo ) a una delle non cambierà la loro correlazione, cambierà in un costante costanteQuesti ultimi due termini mostrano che ha un profondo effetto sulla correlazione tra eSe ciò non suggerisce immediatamente una risposta a qualunque sia la tua domanda, prendi in considerazione l'idea di disegnare alcuni grafici a dispersione.x1x2x1x1x2cxix1x2(x1x2+cx1+cx2).cx1x2xi.
whuber

@whuber Sto riscontrando problemi nel seguire la tua logica- c'è una spiegazione passo-passo più esplicita a cui puoi collegarti? Ho provato a scriverlo con la formula di correlazione, ma non sono stato in grado di riprodurre la tua risposta
hlinee

@whuber Inoltre, per quanto riguarda la mia domanda originale, penso che alcuni contesti potrebbero essere di aiuto, dal momento che sono d'accordo che sia piuttosto vago. Quello che è successo è che ho presentato i miei risultati cercando un effetto di interazione con uno statistico con cui ho lavorato e la prima cosa che mi ha chiesto è se i due predittori nella mia interazione fossero correlati. Non avevo esaminato la correlazione e gli ho chiesto perché fosse importante. Non riuscì a spiegare perché, ma disse che era importante, quindi la mia domanda.
hlinee,

Risposte:


9

C'è una ragione per cui il tuo consulente statistico non è in grado di spiegare perché l'introduzione di un'interazione in un modello lineare potrebbe influire negativamente sulla struttura di correlazione: dipende dalle circostanze e non è generalmente vero che vi sia un effetto negativo. Basta guardare i set di dati mostrati nelle matrici scatterplot di seguito per vedere tutti i diversi modi in cui due variabili potrebbero essere correlate ai loro prodotti.

Il resto di questo post spiega come sono state prodotte queste cifre e potrebbe fornire maggiori informazioni sulla situazione.


Innanzitutto, leviamo l'ovvio: scrivere x3=x1x2, hai una regressione multipla che coinvolge le tre variabili x1,x2,x3. La presenza o meno di problemi di collinearità dipende dalle relazioni lineari tra i xi. Questo è universale.

La particolarità di questo problema è la relazione trax3 e l'altro xi; cioè quello x3=x1x2. Pertanto, se qualcuno ti ha consigliato di stare attento, deve essere dovuto all'aspettativa che questa relazione moltiplicativa comporti matematicamente una sorta di multicollinearità tra tutti ixi.

Non è così, come si può dimostrare esibendo tutti i possibili schemi. Non voglio esaurirti con la pedanteria di passare attraverso tutte le possibilità, quindi lasciatemi solo delineare alcune delle più illustrative. Lo strumento di base che userò in questo studio è l'osservazione che la correlazione tra eventuali variabilix1,x2 rimane invariato quando il xisubire separatamente trasformazioni lineari. Cioè, possiamo moltiplicare liberamente entrambe le variabili per costanti e aggiungere altre costanti ai risultati senza modificare la correlazione. Tuttavia, queste operazioni possono alterare profondamente le correlazioni traX1X2 e Xio.

Prodotto (quasi) costante

È possibile per X1X2essere costante (che, quando una regressione include una costante, sarà problematica). Per creare un esempio, è sufficiente generare valori diversi da zero perX1 e definire X2=c/X1. Il loro prodotto è uguale c per costruzione.

Puoi perturbare questo esempio cambiando c0 in una variabile casuale con valori vicini a c. In questo modo verrà introdotta una piccola correlazione tra Xioe il loro prodotto, ma non molto. Ecco, ad esempio, un esempio in cuiX1 è tratto da una gamma(5) distribuzione e c ha una distribuzione normale con media 1 e deviazione standard di just 1/100:

Figura 0

sebbene il Xio avere una correlazione di ρ12=-0.87 in questo esempio, le loro correlazioni con X1X2 sono solo -0.06 e 0.00.

Quindi, sebbene ci possa essere un po 'di problema usando entrambi X1 e X2 in un modello lineare, incluso X1X2 è improbabile che esasperi.

Prodotto non costante

Per rendere più chiari i calcoli, potremmo anche supporre che Xiohanno una varianza unitaria. Lascia che la varianza diX1X2 essere τ2 e scrivi ρ12io per le correlazioni tra X1X2 e Xio. Calcoliamo cosa succede a queste correlazioni quando costanti cio vengono sottratti dal Xio. Perché la Xio gioca ruoli perfettamente simmetrici (basta scambiare "1"per"2"negli indici), è sufficiente calcolare la correlazione con X1:

(*)Cor((X1-c1)(X2-c2),X1)=Cov((X1-c1)(X2-c2),X1)Var(X1-c1)(X2-c2)VarX1=Cov(X1X2-c2X1-c1X2+c1c2,X1)Var(X1X2-c1X2-c2X1+c1c2)=τρ121-c2-c1ρ12τ2-c1ρ12-c2-2c1ρ122-2c2ρ121+2c1c2ρ12.

Zero correlazioni con il prodotto

Indipendentemente da quale sia la correlazione tra il Xiopotremmo essere, possiamo scegliere(c1,c2) per rendere il prodotto non correlato con il Xio.

Dall'analisi che precede, questo sarà raggiunto quando il numeratore di (*) è zero per io=1,2:

{0=τρ121-c2-c1ρ120=τρ122-c1-c2ρ12

quando ρ1221, questo sistema di equazioni in (c1,c2)ha una soluzione unica. Ecco, ad esempio, una matrice scatterplot di un set di dati di100 valori in cui il (Xio) avere una distribuzione normale bivariata con correlazione ρ12=-0.99 ma il Xio avere zero correlazione con X1X2:

Figura 1

Perché X1X2 non è correlato con ("ortogonale a") sia il Xio, introdurlo in qualsiasi modello lineare non creerà alcun problema.

Come suggerisce questo esempio, questa situazione è la norma perché tende a verificarsi quando Xiosono stati centrati. In altre parole, se si centrano le variabili prima di creare un'interazione, di solito non si incontrano problemi con collinearità aggiuntiva.

Forti correlazioni con il prodotto

Le equazioni (*)può anche essere risolto per produrre forti correlazioni. Non è nemmeno necessario spingerci fino a risolvere esattamente le equazioni (il che è una sfida), perché esiste una semplice scorciatoia: riscalando una delleXioessere quasi zero e aggiungendo una costante ad esso, non cambieremo la loro correlazione, ma poi il prodotto sarà quasi uguale a un multiplo dell'altroXio, rendendoli così fortemente correlati.

Ecco un esempio basato sul precedente. In questo esempio,X2 è stato cambiato in 1+X2/100 così che X1X2 è approssimativamente uguale a X1, rendendolo fortemente correlato positivamente con X1X2. Infatti, ρ121=0.999878 e ρ122=-0.9898793 in questo esempio.

figura 2


Perfetto! Grazie per la spiegazione approfondita :)
hlinee
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.