Il termine quadratico o di interazione è significativo in isolamento, ma nessuno dei due è insieme


15

Come parte di un compito, ho dovuto adattare un modello con due variabili predittive. Ho quindi dovuto tracciare una trama dei residui dei modelli rispetto a uno dei predittori inclusi e apportare modifiche basate su quello. La trama ha mostrato una tendenza curvilinea e quindi ho incluso un termine quadratico per quel predittore. Il nuovo modello ha mostrato che il termine quadratico è significativo. Tutto bene finora.

Tuttavia, i dati suggeriscono che anche un'interazione ha senso. L'aggiunta di un termine di interazione al modello originale ha anche 'risolto' la tendenza curvilinea ed è stata significativa anche quando è stata aggiunta al modello (senza il termine quadratico). Il problema è che quando il quadratico e il termine di interazione vengono aggiunti al modello, uno di questi non è significativo.

Quale termine (quadratico o interazione) dovrei includere nel modello e perché?

Risposte:


21

Sinossi

Quando i predittori sono correlati, un termine quadratico e un termine di interazione porteranno informazioni simili. Ciò può comportare la significatività del modello quadratico o del modello di interazione; ma quando entrambi i termini sono inclusi, poiché sono così simili, nessuno dei due può essere significativo. La diagnostica standard per la multicollinearità, come VIF, potrebbe non rilevare nulla di tutto ciò. Anche un diagramma diagnostico, progettato specificamente per rilevare l'effetto dell'uso di un modello quadratico al posto dell'interazione, potrebbe non riuscire a determinare quale modello sia il migliore.


Analisi

La spinta di questa analisi, e la sua forza principale, è quella di caratterizzare situazioni come quella descritta nella domanda. Con una tale caratterizzazione disponibile è quindi facile simulare i dati che si comportano di conseguenza.

Considera due predittori e X 2 (che standardizzeremo automaticamente in modo tale che ciascuno abbia una varianza unitaria nel set di dati) e supponi che la risposta casuale Y sia determinata da questi predittori e dalla loro interazione più un errore casuale indipendente:X1X2Y

Y=β1X1+β2X2+β1,2X1X2+ε.

In molti casi i predittori sono correlati. Il set di dati potrebbe essere simile al seguente:

Matrice a dispersione

Questi dati del campione sono stati generati con e β 1 , 2 = 0,1 . La correlazione tra X 1 e X 2 è 0,85 .β1=β2=1β1,2=0.1X1X20.85

Questo non significa necessariamente che stiamo pensando a e X 2 come realizzazioni di variabili casuali: può includere la situazione in cui sia X 1 che X 2 sono impostazioni in un esperimento progettato, ma per qualche ragione queste impostazioni non sono ortogonali.X1X2X1X2

Indipendentemente da come sorge la correlazione, un buon modo per descriverla è in termini di quanto i predittori differiscono dalla loro media, . Queste differenze saranno piuttosto piccole (nel senso che la loro varianza è inferiore a 1 ); maggiore è la correlazione tra X 1 e X 2 , minori saranno queste differenze. Scrivendo, quindi, X 1 = X 0 + δ 1 e X 2 = X 0 + δX0=(X1+X2)/21X1X2X1=X0+δ1 , possiamo ri-esprimere (diciamo) X 2 in termini di X 1 come X 2 = X 1 + ( δ 2 - δ 1 ) . Inserendo questo nelsolo termine diinterazione, il modello èX2=X0+δ2X2X1X2=X1+(δ2-δ1)

Y=β1X1+β2X2+β1,2X1(X1+[δ2-δ1])+ε=(β1+β1,2[δ2-δ1])X1+β2X2+β1,2X12+ε

Se i valori di variano solo leggermente rispetto a β 1 , possiamo raccogliere questa variazione con i veri termini casuali, scrivendoβ1,2[δ2-δ1]β1

Y=β1X1+β2X2+β1,2X12+(ε+β1,2[δ2-δ1]X1)

Quindi, se regrediamo contro X 1 , X 2 e X 2 1 , commetteremo un errore: la variazione nei residui dipenderà da X 1 (cioè sarà eteroscedastica ). Questo può essere visto con un semplice calcolo della varianza:YX1,X2X12X1

var(ε+β1,2[δ2-δ1]X1)=var(ε)+[β1,22var(δ2-δ1)]X12.

Tuttavia, se la variazione tipica in supera sostanzialmente la variazione tipica in β 1 , 2 [ δ 2 - δ 1 ] X 1 , l'eteroscedasticità sarà così bassa da non essere rilevabile (e dovrebbe produrre un modello fine). (Come mostrato di seguito, un modo per cercare questa violazione delle ipotesi di regressione è quello di tracciare il valore assoluto dei residui rispetto al valore assoluto di X 1, ricordando prima di standardizzare X 1 se necessario.) Questa è la caratterizzazione che stavamo cercando .εβ1,2[δ2-δ1]X1X1X1

Ricordando che e X 2 sono stati considerati standardizzati per la varianza unitaria, ciò implica che la varianza di δ 2 - δ 1 sarà relativamente piccola. Per riprodurre il comportamento osservato, quindi, dovrebbe essere sufficiente scegliere un piccolo valore assoluto per β 1 , 2 , ma renderlo abbastanza grande (o utilizzare un set di dati abbastanza grande) in modo che sia significativo.X1X2δ2-δ1β1,2

In breve, quando i predittori sono correlati e l'interazione è piccola ma non troppo piccola, un termine quadratico (in entrambi i predittori da solo) e un termine di interazione saranno singolarmente significativi ma confusi l'uno con l'altro. È improbabile che i soli metodi statistici ci aiutino a decidere quale sia meglio usare.


Esempio

Diamo un'occhiata con i dati di esempio inserendo diversi modelli. Ricordiamo che era impostato su 0,1 durante la simulazione di questi dati. Sebbene sia piccolo (il comportamento quadratico non è nemmeno visibile nei grafici a dispersione precedenti), con 150 punti dati abbiamo la possibilità di rilevarlo.β1,20.1150

Innanzitutto, il modello quadratico :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.03363    0.03046   1.104  0.27130    
x1           0.92188    0.04081  22.592  < 2e-16 ***
x2           1.05208    0.04085  25.756  < 2e-16 ***
I(x1^2)      0.06776    0.02157   3.141  0.00204 ** 

Residual standard error: 0.2651 on 146 degrees of freedom
Multiple R-squared: 0.9812, Adjusted R-squared: 0.9808 

0.068β1,2=0.1

      x1       x2  I(x1^2) 
3.531167 3.538512 1.009199 

5

Successivamente, il modello con un'interazione ma nessun termine quadratico:

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02887    0.02975    0.97 0.333420    
x1           0.93157    0.04036   23.08  < 2e-16 ***
x2           1.04580    0.04039   25.89  < 2e-16 ***
x1:x2        0.08581    0.02451    3.50 0.000617 ***

Residual standard error: 0.2631 on 146 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.9811

      x1       x2    x1:x2 
3.506569 3.512599 1.004566 

Tutti i risultati sono simili ai precedenti. Entrambi sono ugualmente buoni (con un vantaggio molto piccolo per il modello di interazione).

Infine, includiamo sia i termini di interazione che quadratici :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02572    0.03074   0.837    0.404    
x1           0.92911    0.04088  22.729   <2e-16 ***
x2           1.04771    0.04075  25.710   <2e-16 ***
I(x1^2)      0.01677    0.03926   0.427    0.670    
x1:x2        0.06973    0.04495   1.551    0.123    

Residual standard error: 0.2638 on 145 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.981 

      x1       x2  I(x1^2)    x1:x2 
3.577700 3.555465 3.374533 3.359040

X1X2X12X1X2

Se avessimo provato a rilevare l'eteroscedasticità nel modello quadratico (il primo), saremmo delusi:

Grafico diagnostico

|X1|


9

Cosa ha più senso in base alla fonte dei dati?

Non possiamo rispondere a questa domanda per te, il computer non può rispondere a questa domanda per te. La ragione per cui abbiamo ancora bisogno di statistici invece che solo di programmi statistici è a causa di domande come questa. Le statistiche non si limitano a sgranocchiare i numeri, si tratta di comprendere la domanda e la fonte dei dati e di essere in grado di prendere decisioni basate sulla scienza, sullo sfondo e su altre informazioni al di fuori dei dati che il computer osserva. Il tuo insegnante probabilmente spera che lo considererai come parte del compito. Se avessi assegnato un problema come questo (e l'ho già fatto in precedenza) sarei più interessato alla giustificazione della tua risposta di quanto tu abbia effettivamente scelto.

Probabilmente va oltre la tua classe attuale, ma un approccio se non vi è una chiara ragione scientifica per preferire un modello rispetto all'altro è la media dei modelli, si adattano entrambi i modelli (e forse anche molti altri modelli), quindi si fa la media delle previsioni (spesso ponderato dalla bontà di adattamento dei diversi modelli).

Un'altra opzione, quando possibile, è quella di raccogliere più dati e, se possibile, scegliere i valori x in modo che diventi più chiaro quali sono gli effetti non lineari rispetto all'interazione.

Esistono alcuni strumenti per confrontare l'adattamento di modelli non nidificati (AIC, BIC, ecc.), Ma in questo caso probabilmente non mostreranno abbastanza differenza per annullare la comprensione della provenienza dei dati e di ciò che ha più senso.


1

Un'altra possibilità, oltre a @ Greg's, è quella di includere entrambi i termini, anche se uno non è significativo. Includere solo termini statisticamente significativi non è una legge dell'universo.


Grazie Peter & @Greg. Immagino che in questa fase dei miei studi cerco risposte assolute a domande che richiedono almeno un ragionamento qualitativo. Poiché l'aggiunta del termine quadratico o del termine di interazione "riparava" il diagramma dei residui rispetto al predittore, non ero sicuro di quale dovesse essere incluso. Ciò che mi ha sorpreso è che l'inclusione di un termine quadratico ha reso il termine di interazione non significativo. Avrei pensato che se ci fosse un'interazione, sarebbe significativo indipendentemente dal fatto che fosse incluso o meno un termine quadratico.
Tal Bashan,

1
Ciao @TalBashan Un famoso statistico, Donald Cox, una volta disse che "non ci sono domande statistiche di routine, solo routine statistiche discutibili"
Peter Flom - Ripristina Monica

@PeterFlom Forse intendi Sir David Cox ??
Michael R. Chernick,

Ooops. Sì, David, non Donald. Scusa.
Peter Flom - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.