Nella regressione multipla, perché le interazioni sono modellate come prodotti, e non qualcos'altro, dei predittori?


8

Considera la regressione lineare multipla. Questa domanda potrebbe essere ingannevolmente semplice, ma sto cercando di capire intuitivamente perché, per esempio se ho predittori X1 e X2, allora le interazioni tra questi predittori possono essere adeguatamente catturate da X1 * X2.

So che i termini di interazione sono modellati come prodotti, solo perché è quello che mi è stato insegnato a scuola, ed è quello che tutti dicono di fare. Suppongo ci sia forse qualche argomento geometrico.

Ma perché un prodotto (vale a dire due caratteristiche numeriche e non la complessità aggiuntiva del moltiplicarsi per uno è una variabile fittizia mentre l'altro è numerico ecc.) Catturerà adeguatamente le interazioni?

Perché le "interazioni" non sono meglio catturate da un'altra f (X1, X2) per impostazione predefinita anziché specificamente X1 * X2?

Vedo l'idea che X1 * X2 potrebbe catturare situazioni in cui i segni di X1 e X2 sono uguali o no, ma allora perché, per esempio, le interazioni di default non sarebbero modellate da dire f (X1, X2) = segno (X1 ) * segno (X2) invece di f (X1, X2) = X1X2?

Mi rendo conto di poter aggiungere qualsiasi altra f (X1, X2) a una regressione o qualsiasi modello predittivo, ma trovare la forma esatta delle interazioni con la codifica manuale richiede tempo. Come faccio a sapere che X1X2 è una buona prima ipotesi?

Risposte:


6

Possiamo concepire una "interazione" tra variabili del regressore X1 e X2come una deviazione da una relazione perfettamente lineare in cui la relazione tra un regressore e la risposta è diversa per i diversi valori degli altri regressori. Il solito "termine di interazione" è, in un certo senso, spiegato di seguito, una "più semplice" tale partenza.

Definizioni e concetti

"Relazione lineare" significa semplicemente il solito modello in cui supponiamo una risposta Y differisce da una combinazione lineare di Xio (e una costante) con errori indipendenti, a media zero ε:

(*)Y=β0+β1X1+β2X2+ε.

"Interazione", nel senso più generale, indica i parametri βio può dipendere da altre variabili.

Nello specifico, in questo esempio di soli due regressori, potremmo scrivere genericamente

β1=β1(X2) e β2=β2(X1).

Analisi

Ora, in pratica, nessuno, tranne un fisico teorico, crede davvero al modello (*)è del tutto preciso: è un'approssimazione della verità e, speriamo, una stretta. Perseguendo ulteriormente questa idea, potremmo chiederci se possiamo approssimare allo stesso modo le funzioniβiocon quelli lineari nel caso in cui abbiamo bisogno di modellare un qualche tipo di interazione. In particolare, potremmo provare a scrivere

β1(X2)=γ0+γ1X2+ piccolo errore1;
β2(X1)=δ0+δ1X1+ piccolo errore2.

Vediamo dove conduce. Collegare queste approssimazioni lineari a(*)

Y=β0+β1(X2)X1+β2(X1)X2+ε=β0+(γ0+γ1X2+ piccolo errore1)X1+(δ0+δ1X1+ piccolo errore2)X2+ε=β0+γ0X1+δ0X2+(γ1+δ1)X1X2+...

dove "..."rappresenta l'errore totale,

...=( piccolo errore1)X1+( piccolo errore2)X2+ε.

Con un po 'di fortuna, moltiplicando questi due "piccoli errori" per i valori tipici di Xio sarà (a) essere irrilevante rispetto a ε oppure (b) possono essere trattati come termini casuali che, se aggiunti a ε (e forse adeguando il termine costante β0 per compensare qualsiasi distorsione sistematica) può essere trattato come un termine di errore casuale.

In entrambi i casi, con un cambio di notazione vediamo che questo modello di approssimazione lineare a un'interazione prende forma

(**)Y=β0+β1X1+β2X2+β12X1X2+ε,

che è precisamente il solito modello di regressione "interazione". (Notare che nessuno dei nuovi parametri, néε stesso, è la stessa quantità originariamente rappresentata da quei termini in (*).)

Osserva come β12sorge attraverso la variazione di entrambi i parametri originali. Cattura la combinazione di (i) come il coefficiente diX1 dipende da X2 (vale a dire, attraverso γ1) e (ii) come il coefficiente diX2 dipende da X1 (attraverso δ1).


Alcune conseguenze

È una conseguenza di questa analisi che se risolviamo tutti i regressori tranne uno, quindi ( condizionatamente ) la rispostaYè ancora una funzione lineare del restante regressore. Ad esempio, se fissiamo il valore diX2, allora potremmo riscrivere il modello di interazione (**) come

Y=(β0+β2X2)+(β1+β12X2)X1+ε,

dove si trova l'intercettazione β0+β2X2 e la pendenza (cioè il X1 coefficiente) è β1+β2X2. Ciò consente una facile descrizione e approfondimento. Geometricamente, la superficie data dalla funzione

f(X1,X2)=β0+β1X1+β2X2+β12X1X2

è governato: quando lo dividiamo parallelamente a uno degli assi delle coordinate, il risultato è sempre una linea. (Tuttavia, la superficie stessa non è planare tranne quandoβ12=0. In effetti, ovunque ha una curvatura gaussiana negativa.)

Infine, se la nostra speranza per (a) o (b) non si esaurisce, potremmo espandere ulteriormente il comportamento funzionale dell'originale βioper includere i termini del secondo ordine o superiore. L'esecuzione della stessa analisi mostra che ciò introdurrà i termini del moduloX12, X22, X1X22, X12X2,e così via nel modello. In questo senso, includere un termine di interazione (prodotto) è semplicemente il primo - e più semplice - passo verso la modellizzazione delle relazioni non lineari tra la risposta e i regressori mediante funzioni polinomiali.

Infine, nel suo libro di testo EDA (Addison-Wesley 1977), John Tukey mostrò come questo approccio potesse essere condotto molto più in generale. Dopo la prima "ri-espressione" (cioè l'applicazione di trasformazioni non lineari adeguate ai) regressori e la risposta, spesso accade che entrambi i modelli(*) si applica alle variabili trasformate o, in caso contrario, al modello (**)può essere facilmente adattato (utilizzando una solida analisi dei residui). Ciò consente di esprimere e interpretare una grande varietà di relazioni non lineari come risposte condizionatamente lineari.


1
Questa è una bella risposta dettagliata. Grazie. A parte questo, continuo a vedere riferimenti al libro di Tukey in arrivo su questo sito ... anche se è così vecchio. Forse è tempo di leggerlo.
ChilliProject
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.