Ha senso aggiungere un termine quadratico ma non il termine lineare a un modello?


57

Ho un modello (misto) in cui uno dei miei predittori dovrebbe a priori essere solo quadraticamente correlato al predittore (a causa della manipolazione sperimentale). Quindi, vorrei aggiungere solo il termine quadratico al modello. Due cose mi impediscono di farlo:

  1. Penso di aver letto da qualche parte che dovresti sempre includere il polinomio di ordine inferiore quando si adattano i polinomi di ordine superiore. Ho dimenticato dove l'ho trovato e nella letteratura che ho visto (ad esempio, Faraway, 2002; Fox, 2002) non riesco a trovare una buona spiegazione.
  2. Quando aggiungo entrambi, il termine lineare e quadratico, entrambi sono significativi. Quando ne aggiungo solo uno, non sono significativi. Tuttavia, una relazione lineare tra predittore e dati non è interpretabile.

Il contesto della mia domanda è specificamente un modello misto che usa lme4, ma vorrei ottenere risposte che possano spiegare perché è o perché non va bene includere un polinomio di ordine superiore e non un polinomio di ordine inferiore.

Se necessario, posso fornire i dati.


5
Penso che le risposte a questa domanda possano essere utili.

6
Sì, sono d'accordo con Procrastinator e le domande di interazione sono essenzialmente la stessa considerazione. Abbiamo alcune domande molto votate sull'argomento. Oltre al suggerimento di Pro, vedi anche Tutti i termini di interazione hanno bisogno dei loro termini individuali nel modello di regressione? e se l'interazione cancella i miei effetti diretti nella regressione? .
Andy W,

Grazie per il promemoria a queste domande. Dalle risposte fornite sembra che sia una buona strategia se hai buone ragioni a priori includere solo il termine quadratico e non di per sé sbagliato. La domanda che rimane è quella sulla scalabilità (vedi: stats.stackexchange.com/a/27726/442 ). Devo centrare la mia variabile prima di adattarla quando uso solo il termine quadratico?
Henrik,

1
@Henrik - la mia risposta nel link che hai pubblicato riguardava il modo in cui l'inferenza del modello dipende da cambiamenti arbitrari nei valori del predittore (come la centratura media) - è indesiderabile che la conclusione sostanziale dipenda da qualcosa di così arbitrario, motivo per cui la mia risposta alla tua la domanda è "no", per lo stesso motivo.
Macro,

2
La questione del quadratico vs lineare è sufficientemente concettualmente distinta dalle interazioni che penso che questo non dovrebbe essere considerato un duplicato.
gung - Ripristina Monica

Risposte:


66

1. Perché includere il termine lineare?

È illuminante notare che una relazione quadratica può essere scritta in due modi:

y=a0+a1x+a2x2=a2(xb)2+c

2a2b=a1a2b2+c=a0x=b

a1x

y=a0+a2x2=a2(x0)2+c

c=a0a0b=0

x=0a1x

2. Come comprendere i cambiamenti di significato quando i termini sono inclusi o esclusi?

Questo è discusso in dettaglio in un thread correlato su https://stats.stackexchange.com/a/28493 .

a2a1b


1
Grazie whuber. Bella risposta. Quindi se centro l'estremismo teorico su 0 (in realtà è un minimo) sto bene con ommettere il termine lineare. Questo porta acutamente a un predittore quadratico molto significativo (senza quello lineare).
Henrik,

se entrambi i termini lineari e quadratici di una variabile sono correlati, posso includerli entrambi in un modello o dovrei escluderne uno (che presumo debba essere il quadratico)?
mtao,

@Teresa Non vi è alcun motivo generale per eliminare i termini correlati in una regressione. (Se così fosse, la stragrande maggioranza dei modelli di regressione mai creati sarebbe nei guai!) Termini molto fortemente correlati che insieme non contribuiscono in modo significativo all'adattamento del modello rispetto a uno dei due termini possono essere ridotti a un sottoinsieme di quei termini.
whuber

@whuber, grazie mille! Inoltre, per un modello di regressione logistica, ho usato il rapporto di probabilità per stimare la dimensione dell'effetto, ma solo con termini lineari. Quando ho lineare e quadratico, posso usare lo stesso approccio e interpretare i risultati allo stesso modo?
mtao,

Non proprio. Il motivo è che non è possibile modificare separatamente i termini lineari e quadratici. Devi considerare come cambierà la risposta quando cambi un po 'la variabile originale.
whuber

22

@whuber ha dato una risposta davvero eccellente qui. Voglio solo aggiungere un piccolo punto in omaggio. La domanda afferma che "una relazione lineare tra predittore e dati non è interpretabile". Ciò suggerisce un malinteso comune, anche se di solito lo sento dall'altra parte ("qual è l'interpretazione del termine quadrato [cubico, ecc.]?").


GPA^college=β0+β1GPAhighschool+β2class rank+β3SAT,

(GPA significa media dei voti; il
grado è l'ordinamento del GPA di uno studente rispetto ad altri studenti della stessa scuola superiore; e
SAT significa "test di attitudine scolastica" un test standard a livello nazionale per gli studenti che vanno all'università)

β1

È importante notare, tuttavia, che non è sempre consentito interpretare un modello in questo modo. Un caso ovvio si verifica quando vi è un'interazione tra alcune delle variabili, poiché non sarebbe possibile che il termine individuale differisca e abbia ancora tutto il resto costante - per necessità, anche il termine di interazione cambierebbe. Pertanto, quando esiste un'interazione, non interpretiamo gli effetti principali ma solo gli effetti semplici , come è ben compreso.


y^=β0+β1x+β2x2
xxx2x2xx17pp1xyy^x
dydx=β1+2β2x
yxy xyxoldxnew. Questa è semplicemente la natura di una relazione curvilinea.

1
Ottima risposta! Questo mi ricorda alcune risposte eccellenti fornite dall'utente chl sull'interpretazione degli effetti di interazione . Fornisce riferimenti agli articoli in questa risposta. Quali sono le migliori pratiche per identificare gli effetti di interazione? . E fornisce un meraviglioso esempio di visualizzazione grafica dell'interazione usando coploti in questa risposta. È possibile l'interazione tra due variabili continue? .
Andy W,

1
Alla risposta di Gung voglio solo dire che la modellistica statistica implica un rumore che può mascherare i dettagli in un modello di regressione polinomiale. penso che il problema centrante sollevato da Bill Huber fosse una questione greta perché in una formulazione manca un termine lineare e nell'altro si verifica con il termine quadratico. La forza della curvatura nel segnale impone la necessità di un termine superiore al primo ordine, ma in realtà non ci dice nulla sulla necessità di un termine lineare.
Michael Chernick,

7

x=0

Y=b0+b2(xx¯)2x¯xx=x¯

La tua affermazione che sia i termini lineari che quadratici sono significativi quando entrambi sono inseriti richiede qualche chiarimento. Ad esempio, SAS può segnalare un test di tipo I e / o di tipo III per quell'esempio. Tipo I verifica il lineare prima di inserire il quadratico. Il tipo III verifica il lineare con il quadratico nel modello.


2
x2x=0x=x¯xx2si è verificato.
gung - Ripristina Monica

In un'altra nota, puoi fare riferimento ai contributi di un utente dichiarando il loro nome utente, possibile con il simbolo 'at'. Ad esempio, in questo caso, '@ la risposta di whuber è proprio sul bersaglio ...' (Un sentimento con cui sono d'accordo.)
gung - Reinstalla Monica

1
Grazie, Emil, per aver contribuito a quei promemoria: vale la pena ricordare entrambi.
whuber

3

Brambor, Clark e Golder (2006) (che viene fornito con un'appendice Internet ) hanno una visione molto chiara di come comprendere i modelli di interazione e come evitare le insidie ​​comuni, incluso il motivo per cui dovresti (quasi) sempre includere i termini di ordine inferiore ( "termini costitutivi") nei modelli di interazione.

Gli analisti dovrebbero includere tutti i termini costitutivi quando specificano i modelli di interazione moltiplicativa, tranne in circostanze molto rare. Per termini costitutivi, intendiamo ciascuno degli elementi che costituiscono il termine di interazione. [..]

X2XZJXX2XZJXZXJZJXZJ

In caso contrario, si potrebbe ottenere un modello non specificato che porterebbe a stime distorte. Ciò può causare errori inferenziali.

ZXZXZβ0β1β3

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.