C'è una ragione per cui il tuo consulente statistico non è in grado di spiegare perché l'introduzione di un'interazione in un modello lineare potrebbe influire negativamente sulla struttura di correlazione: dipende dalle circostanze e non è generalmente vero che vi sia un effetto negativo. Basta guardare i set di dati mostrati nelle matrici scatterplot di seguito per vedere tutti i diversi modi in cui due variabili potrebbero essere correlate ai loro prodotti.
Il resto di questo post spiega come sono state prodotte queste cifre e potrebbe fornire maggiori informazioni sulla situazione.
Innanzitutto, leviamo l'ovvio: scrivere x3=x1x2, hai una regressione multipla che coinvolge le tre variabili x1,x2,x3. La presenza o meno di problemi di collinearità dipende dalle relazioni lineari tra i xi. Questo è universale.
La particolarità di questo problema è la relazione trax3 e l'altro xi; cioè quello x3=x1x2. Pertanto, se qualcuno ti ha consigliato di stare attento, deve essere dovuto all'aspettativa che questa relazione moltiplicativa comporti matematicamente una sorta di multicollinearità tra tutti ixi.
Non è così, come si può dimostrare esibendo tutti i possibili schemi. Non voglio esaurirti con la pedanteria di passare attraverso tutte le possibilità, quindi lasciatemi solo delineare alcune delle più illustrative. Lo strumento di base che userò in questo studio è l'osservazione che la correlazione tra eventuali variabilix1,x2 rimane invariato quando il xiosubire separatamente trasformazioni lineari. Cioè, possiamo moltiplicare liberamente entrambe le variabili per costanti e aggiungere altre costanti ai risultati senza modificare la correlazione. Tuttavia, queste operazioni possono alterare profondamente le correlazioni trax1x2 e xio.
Prodotto (quasi) costante
È possibile per X1X2essere costante (che, quando una regressione include una costante, sarà problematica). Per creare un esempio, è sufficiente generare valori diversi da zero perX1 e definire X2= c /X1. Il loro prodotto è uguale c per costruzione.
Puoi perturbare questo esempio cambiando c ≠ 0 in una variabile casuale con valori vicini a c . In questo modo verrà introdotta una piccola correlazione tra Xioe il loro prodotto, ma non molto. Ecco, ad esempio, un esempio in cuiX1 è tratto da una gamma( 5 ) distribuzione e c ha una distribuzione normale con media 1 e deviazione standard di just 1 / 100 :

sebbene il Xio avere una correlazione di ρ1 ⋅ 2= - 0,87 in questo esempio, le loro correlazioni con X1X2 sono solo - 0,06 e 0.00.
Quindi, sebbene ci possa essere un po 'di problema usando entrambi X1 e X2 in un modello lineare, incluso X1X2 è improbabile che esasperi.
Prodotto non costante
Per rendere più chiari i calcoli, potremmo anche supporre che Xiohanno una varianza unitaria. Lascia che la varianza diX1X2 essere τ2 e scrivi ρ12 ⋅ i per le correlazioni tra X1X2 e Xio. Calcoliamo cosa succede a queste correlazioni quando costanti cio vengono sottratti dal Xio. Perché la Xio gioca ruoli perfettamente simmetrici (basta scambiare "1"per"2"negli indici), è sufficiente calcolare la correlazione con X1:
Cor( (X1-c1) (X2-c2) ,X1)=Cov( (X1-c1) (X2-c2) ,X1)Var(X1-c1) (X2-c2) VarX1-----------------------√=Cov(X1X2-c2X1-c1X2+c1c2,X1)Var(X1X2-c1X2-c2X1+c1c2)-------------------------√=τρ12 ⋅ 1-c2-c1ρ1 ⋅ 2τ2-c1ρ1 ⋅ 2-c2- 2c1ρ12 ⋅ 2- 2c2ρ12 ⋅ 1+ 2c1c2ρ1 ⋅ 2-------------------------------------√.(*)
Zero correlazioni con il prodotto
Indipendentemente da quale sia la correlazione tra il Xiopotremmo essere, possiamo scegliere(c1,c2) per rendere il prodotto non correlato con il Xio.
Dall'analisi che precede, questo sarà raggiunto quando il numeratore di ( ∗ ) è zero per i = 1 , 2 :
{0 = τρ12 ⋅ 1-c2-c1ρ1 ⋅ 20 = τρ12 ⋅ 2-c1-c2ρ1 ⋅ 2
quando ρ21 ⋅ 2≠ 1 , questo sistema di equazioni in (c1,c2)ha una soluzione unica. Ecco, ad esempio, una matrice scatterplot di un set di dati di100 valori in cui il (Xio) avere una distribuzione normale bivariata con correlazione ρ1 ⋅ 2= - 0,99 ma il Xio avere zero correlazione con X1X2:

Perché X1X2 non è correlato con ("ortogonale a") sia il Xio, introdurlo in qualsiasi modello lineare non creerà alcun problema.
Come suggerisce questo esempio, questa situazione è la norma perché tende a verificarsi quando Xiosono stati centrati. In altre parole, se si centrano le variabili prima di creare un'interazione, di solito non si incontrano problemi con collinearità aggiuntiva.
Forti correlazioni con il prodotto
Le equazioni ( ∗ )può anche essere risolto per produrre forti correlazioni. Non è nemmeno necessario spingerci fino a risolvere esattamente le equazioni (il che è una sfida), perché esiste una semplice scorciatoia: riscalando una delleXioessere quasi zero e aggiungendo una costante ad esso, non cambieremo la loro correlazione, ma poi il prodotto sarà quasi uguale a un multiplo dell'altroXio, rendendoli così fortemente correlati.
Ecco un esempio basato sul precedente. In questo esempio,X2 è stato cambiato in 1 +X2/ 100 così che X1X2 è approssimativamente uguale a X1, rendendolo fortemente correlato positivamente con X1X2. Infatti, ρ12 ⋅ 1= 0.999878 e ρ12 ⋅ 2= - 0.9898793 in questo esempio.
