Possiamo concepire una "interazione" tra variabili del regressore X1 e X2come una deviazione da una relazione perfettamente lineare in cui la relazione tra un regressore e la risposta è diversa per i diversi valori degli altri regressori. Il solito "termine di interazione" è, in un certo senso, spiegato di seguito, una "più semplice" tale partenza.
Definizioni e concetti
"Relazione lineare" significa semplicemente il solito modello in cui supponiamo una risposta Y differisce da una combinazione lineare di Xio (e una costante) con errori indipendenti, a media zero ε :
Y=β0+β1X1+β2X2+ ε .(*)
"Interazione", nel senso più generale, indica i parametri βio può dipendere da altre variabili.
Nello specifico, in questo esempio di soli due regressori, potremmo scrivere genericamente
β1=β1(X2) e β2=β2(X1) .
Analisi
Ora, in pratica, nessuno, tranne un fisico teorico, crede davvero al modello ( ∗ )è del tutto preciso: è un'approssimazione della verità e, speriamo, una stretta. Perseguendo ulteriormente questa idea, potremmo chiederci se possiamo approssimare allo stesso modo le funzioniβiocon quelli lineari nel caso in cui abbiamo bisogno di modellare un qualche tipo di interazione. In particolare, potremmo provare a scrivere
β1(X2) =γ0+γ1X2+ piccolo errore1;
β2(X1) =δ0+δ1X1+ piccolo errore2.
Vediamo dove conduce. Collegare queste approssimazioni lineari a( ∗ ) dà
Y=β0+β1(X2)X1+β2(X1)X2+ ε=β0+ (γ0+γ1X2+ piccolo errore1)X1+ (δ0+δ1X1+ piccolo errore2)X2+ ε=β0+γ0X1+δ0X2+ (γ1+δ1)X1X2+ ...
dove "..."rappresenta l'errore totale,
… = ( piccolo errore1)X1+ ( piccolo errore2)X2+ ε .
Con un po 'di fortuna, moltiplicando questi due "piccoli errori" per i valori tipici di Xio sarà (a) essere irrilevante rispetto a ε oppure (b) possono essere trattati come termini casuali che, se aggiunti a ε (e forse adeguando il termine costante β0 per compensare qualsiasi distorsione sistematica) può essere trattato come un termine di errore casuale.
In entrambi i casi, con un cambio di notazione vediamo che questo modello di approssimazione lineare a un'interazione prende forma
Y=β0+β1X1+β2X2+β12X1X2+ ε ,(**)
che è precisamente il solito modello di regressione "interazione". (Notare che nessuno dei nuovi parametri, néε stesso, è la stessa quantità originariamente rappresentata da quei termini in ( ∗ ) .)
Osserva come β12sorge attraverso la variazione di entrambi i parametri originali. Cattura la combinazione di (i) come il coefficiente diX1 dipende da X2 (vale a dire, attraverso γ1) e (ii) come il coefficiente diX2 dipende da X1 (attraverso δ1).
Alcune conseguenze
È una conseguenza di questa analisi che se risolviamo tutti i regressori tranne uno, quindi ( condizionatamente ) la rispostaYè ancora una funzione lineare del restante regressore. Ad esempio, se fissiamo il valore diX2, allora potremmo riscrivere il modello di interazione ( ∗ ∗ ) come
Y= (β0+β2X2) + (β1+β12X2)X1+ ε ,
dove si trova l'intercettazione β0+β2X2 e la pendenza (cioè il X1 coefficiente) è β1+β2X2. Ciò consente una facile descrizione e approfondimento. Geometricamente, la superficie data dalla funzione
f(X1,X2) =β0+β1X1+β2X2+β12X1X2
è governato: quando lo dividiamo parallelamente a uno degli assi delle coordinate, il risultato è sempre una linea. (Tuttavia, la superficie stessa non è planare tranne quandoβ12= 0. In effetti, ovunque ha una curvatura gaussiana negativa.)
Infine, se la nostra speranza per (a) o (b) non si esaurisce, potremmo espandere ulteriormente il comportamento funzionale dell'originale βioper includere i termini del secondo ordine o superiore. L'esecuzione della stessa analisi mostra che ciò introdurrà i termini del moduloX21, X22, X1X22, X21X2,e così via nel modello. In questo senso, includere un termine di interazione (prodotto) è semplicemente il primo - e più semplice - passo verso la modellizzazione delle relazioni non lineari tra la risposta e i regressori mediante funzioni polinomiali.
Infine, nel suo libro di testo EDA (Addison-Wesley 1977), John Tukey mostrò come questo approccio potesse essere condotto molto più in generale. Dopo la prima "ri-espressione" (cioè l'applicazione di trasformazioni non lineari adeguate ai) regressori e la risposta, spesso accade che entrambi i modelli( ∗ ) si applica alle variabili trasformate o, in caso contrario, al modello ( ∗ ∗ )può essere facilmente adattato (utilizzando una solida analisi dei residui). Ciò consente di esprimere e interpretare una grande varietà di relazioni non lineari come risposte condizionatamente lineari.