Tutti i termini di interazione hanno bisogno dei loro termini individuali nel modello di regressione?


68

Sto attualmente recensendo un manoscritto in cui gli autori confrontano i modelli di regressione 5-6 logit con AIC. Tuttavia, alcuni dei modelli hanno termini di interazione senza includere i singoli termini di covariata. Ha mai senso farlo?

Ad esempio (non specifico per i modelli logit):

M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)

Ho sempre avuto l'impressione che se hai il termine di interazione X1 * X2 hai bisogno anche di X1 + X2. Pertanto, i modelli 1 e 2 andrebbero bene, ma i modelli 3-5 sarebbero problematici (anche se AIC è inferiore). È corretto? È una regola o più di una linea guida? Qualcuno ha un buon riferimento che spiega il ragionamento alla base di questo? Voglio solo assicurarmi di non comunicare male qualcosa di importante nella recensione.

Grazie per ogni pensiero, Dan


8
+1, penso che questa sia davvero una bella domanda. Potresti anche voler dare un'occhiata a questa domanda precedente che copre gran parte dello stesso territorio. Le risposte sono davvero eccellenti.
gung - Ripristina Monica

Molte buone risposte già. C'era un articolo di Rindskopf su alcuni casi in cui non sono necessari gli effetti principali. (Vedi anche questo )
Peter Flom - Ripristina Monica

3
AFAIK: in R's lm (), :è per le interazioni, come in A: B. Ed *è sia per gli effetti principali che per le interazioni, quindi A * B = A + B + A: B. Quindi se (!) Gli autori dell'articolo seguono questa notazione, non credo che a nessuno dei modelli manchino gli effetti principali?
Zhubarb,

Inoltre, la stessa logica delle risposte attuali si applica alle interazioni di ordine superiore (ad es. Sono necessarie tutte le interazioni a 2 vie se si include una a 3 vie)
Peter Flom - Ripristina Monica

Risposte:


38

Il più delle volte questa è una cattiva idea - il motivo principale è che non rende più il modello invariante rispetto ai cambiamenti di posizione. Ad esempio, si supponga di avere un unico risultato e due predittori x i e z io e specificare il modello:yixizi

yi=β0+β1xizi+ε

Se dovessi centrare i predittori con i loro mezzi, diventaxizi

(xix¯)(ziz¯)=xizixiz¯zix¯+x¯z¯

Quindi, puoi vedere che gli effetti principali sono stati reintrodotti nel modello.

Ho dato una discussione euristica qui, ma questo presenta un problema pratico. Come notato in Faraway (2005) a pagina 114, una modifica aggiuntiva della scala modifica l'inferenza del modello quando gli effetti principali vengono esclusi dal modello, mentre ciò non accade quando vengono inclusi i termini di ordine inferiore. Normalmente non è desiderabile che cose arbitrarie come un cambiamento di posizione causino un cambiamento fondamentale nell'inferenza statistica (e quindi le conclusioni della tua indagine), come può accadere quando includi termini o interazioni polinomiali in un modello senza effetti di ordine inferiore.

xizixi,ziai=xizi

yi=α0+α1ai+εi

ai


additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the modelIl cambiamento additivo dei predittori generalmente modifica t dei loro effetti principali (termini di ordine inferiore) anche in un modello completo. È la vestibilità generale (R ^ 2) che viene preservata (ma non viene conservata in caso di modifica additiva in un modello con alcuni effetti principali eliminati). È quello che volevi dire?
ttnphns,

Sì, è vero @ttnphns - grazie per averlo sottolineato - Ho modificato un po 'la mia risposta per riflettere questo.
Macro

28

Tutte le risposte finora sembrano mancare di un punto basilare: la forma funzionale scelta dovrebbe essere abbastanza flessibile da catturare le caratteristiche scientificamente rilevanti. I modelli 2-5 impongono coefficienti zero su alcuni termini senza giustificazione scientifica. E anche se scientificamente giustificato, il Modello 1 rimane attraente perché potresti anche testare i coefficienti zero anziché imporli.

La chiave è capire cosa significano le restrizioni. L'ammonizione tipica di evitare i modelli 3-5 è perché nella maggior parte delle applicazioni le ipotesi che impongono sono scientificamente non plausibili. Il modello 3 presuppone che X2 influenzi solo la pendenza dY / dX1 ma non il livello. Il modello 4 presuppone che X1 influenzi solo la pendenza dY / dX2 ma non il livello. E il Modello 5 presuppone che né X1 né X2 influiscano sul livello, ma solo dY / dX1 o dY / dX2. Nella maggior parte delle applicazioni questi presupposti non sembrano ragionevoli. Anche il modello 2 impone un coefficiente zero ma ha ancora qualche merito. Fornisce la migliore approssimazione lineare ai dati, che in molti casi soddisfa l'obiettivo scientifico.


5
(+1) Questo è tutto vero, ma il poster originale sembrava descrivere una situazione in cui gli autori stavano provando a fare la selezione dei modelli, e alcuni dei loro modelli candidati erano quelli che non includevano interazioni - quindi la loro motivazione era guidata dall'AIC piuttosto che da qualcosa di sostanziale (che è sempre una cosa pericolosa da fare, ma a quanto pare l'hanno fatto). Quando sei guidato da qualcosa di sostanziale, allora la struttura del modello dovrebbe essere dettata da ciò. Ma, quando sei guidato da un criterio statistico, tralasciare gli effetti principali può avere proprietà negative, come ho indicato nella mia risposta.
Macro

16

x1x2potrebbe essere [0, 0, 0, 1] o [1, -1, -1, 1], a seconda dello schema di codifica utilizzato. Credo che sia possibile avere una situazione in cui solo l'interazione è "significativa" con uno schema di codifica, ma tutti i termini sono "significativi" usando l'altro schema. Ciò implica che decisioni interpretative significative sarebbero prese sulla base di una decisione di codifica arbitraria che, in effetti, il tuo software potrebbe aver preso per te a tua insaputa. Riconosco che questo è un piccolo punto, ma è solo un motivo in più per cui in genere non è una buona idea conservare solo l'interazione (e ovviamente non selezionare un sottoinsieme di predittori basato su valori p).


1
Il test di significatività per i principali effetti categorici non è meno invariante. Un gruppo può essere significativamente diverso dal gruppo di riferimento nella codifica del trattamento ma non dall'effetto "media" nella codifica del contrasto.
Probislogic

10

Dato che stai rivedendo un articolo, potresti suggerire agli autori di discutere il problema della gerarchia dei modelli e giustificare la loro partenza da esso.

Ecco alcuni riferimenti:

  1. Nelder JA. La scelta dei termini nei modelli di superficie di risposta: quanto è forte il principio dell'ereditarietà debole? Lo statistico americano. 1998; 52: 315-8. http://www.jstor.org/pss/2685433 . Accesso al 10 giugno 2010.

  2. Peixoto JL. Selezione delle variabili gerarchiche nei modelli di regressione polinomiale. Lo statistico americano. 1987; 41: 311-3. http://www.jstor.org/pss/2684752 . Accesso al 10 giugno 2010.

  3. Peixoto JL. Una proprietà di modelli di regressione polinomiale ben formulati. Lo statistico americano. 1990; 44: 26-30. http://www.jstor.org/pss/2684952 . Accesso al 10 giugno 2010.

Di solito seguo la gerarchia, ma mi allontano da essa in alcune situazioni. Ad esempio, se stai testando l'usura degli pneumatici rispetto al chilometraggio a diverse velocità diverse, il tuo modello potrebbe apparire come:

profondità del battistrada = intercetta + chilometraggio + chilometraggio * velocità

ma non avrebbe senso fisico includere un effetto principale della velocità perché il pneumatico non sa quale sarà la velocità a zero miglia.

(D'altra parte, potresti comunque voler testare un effetto di velocità perché potrebbe indicare che gli effetti di "rodaggio" differiscono a velocità diverse. D'altra parte, un modo ancora migliore per gestire il rodaggio sarebbe quello di ottenere i dati a zero e a chilometraggio molto basso e quindi verificare la non linearità. Si noti che la rimozione del termine di intercettazione può essere considerata come un caso speciale di violazione della gerarchia.)

Ribadirò anche ciò che qualcuno ha detto sopra perché è molto importante: gli autori devono assicurarsi di sapere se il loro software sta centrando i dati. Il modello di pneumatico sopra diventa fisicamente insensato se il software sostituisce il chilometraggio con (chilometraggio - media del chilometraggio).

Le stesse cose sono rilevanti negli studi sulla stabilità farmaceutica (menzionati tangenzialmente in "Modelli di stabilità per lo stoccaggio sequenziale", Emil M. Friedman e Sam C. Shum, AAPS PharmSciTech, Vol. 12, No. 1, Marzo 2011, DOI: 10.1208 / s12249-010-9558-x).


1
grazie, questa è un'ottima risposta e mi aiuterà a spiegarla a persone che non sono statisticamente esperte.
djhocking

1
+1 Vorrei che fosse possibile unire le risposte su SO. Questo con la risposta accettata sopra costituisce la risposta perfetta.
Zhubarb,

9

Ho avuto un caso reale che illustra questo. Nei dati, una delle variabili rappresentate groupcon controllo 0 e 1 trattamento. L'altro predittore rappresentato time periodcon 0 prima del trattamento e 1 dopo il trattamento. L'interazione era il principale parametro di interesse per misurare l'effetto del trattamento, la differenza dopo il trattamento nel gruppo di trattamento al di sopra di qualsiasi effetto del tempo misurato nel gruppo di controllo. L'effetto principale digroupmisurato la differenza nei 2 gruppi prima di qualsiasi trattamento, quindi potrebbe essere facilmente 0 (in un esperimento randomizzato dovrebbe essere 0, questo non lo era). Il secondo effetto principale misura la differenza tra i periodi di tempo prima e dopo nel gruppo di controllo in cui non vi era alcun trattamento, quindi ha anche senso che possa essere 0 mentre il termine di interazione è diverso da zero. Naturalmente questo dipende da come le cose sono state codificate e una diversa codifica cambierebbe i significati e se l'interazione avesse o meno senso senza gli effetti principali. Quindi ha senso solo adattarsi all'interazione senza gli effetti principali in casi specifici.


Quindi vuoi dire che tutto dipende dagli obiettivi del tuo studio O in base ai tuoi parametri?
Ben

1
@Ben, può dipendere sia dal modo in cui parametrizzi le tue variabili (nel mio esempio il passaggio da 0/1 a 1/0 per entrambe le variabili cambierebbe l'interpretazione) sia a quali domande stai cercando di rispondere e quali ipotesi sei disposto a fare .
Greg Snow,

Y=B0+B1X+B2Z+B3XZ2008+yeardummies
X e Z sono variabili continue, Z è il livello di regolazione. l'anno 2008 è segnato 1 e 0 per altri anni. quindi è come se prendessi solo le osservazioni dell'anno 2008 senza interazione. Ho letto del principio di eredità debole e forte, ma non ho capito bene
Ben

1
@Ben, È certamente possibile adattarsi al modello sopra che sostanzialmente dice che pensi che ci sia (o potrebbe esserci) un'interazione nel 2008, ma non in nessun altro anno. Se hai una giustificazione per questo, penso che il modello vada bene. Ma è un presupposto abbastanza insolito che probabilmente dovrai giustificarlo a qualsiasi pubblico.
Greg Snow,

B1X
B1X

7

Sono d'accordo con Peter. Penso che la regola sia il folklore. Perché potremmo concepire una situazione in cui due variabili influenzerebbero il modello solo a causa di un'interazione. Un'analogia in chimica è che due sostanze chimiche sono totalmente inerti da sole ma provocano un'esplosione se mescolate insieme. Le sottigliezze matematiche / statistiche come l'invarianza non hanno nulla a che fare con un problema reale con dati reali. Penso solo che quando ci sono molte variabili da considerare ci sono moltissimi test da fare se si guardano tutti gli effetti principali e la maggior parte se non tutte le interazioni del primo ordine. Inoltre non guardiamo quasi mai alle interazioni del secondo ordine anche in piccoli esperimenti con solo una manciata di variabili. Il pensiero è che maggiore è l'ordine di interazione, meno è probabile che ci sia un effetto reale. Quindi non t guarda le interazioni del primo o del secondo ordine se l'effetto principale non c'è. Una buona regola forse, ma seguirla religiosamente significa trascurare le eccezioni e il tuo problema potrebbe essere un'eccezione.


8
p

1
Probabilmente ho sbagliato a dire che l'invarianza non ha rilevanza nel mondo reale. La mia intenzione era che alcuni risultati matematici potrebbero non essere rilevanti in un particolare problema pratico. Ad esempio, le stime dei minimi quadrati sono la massima probabilità in normali ipotesi di errore e dal teorema di Gauss Markov sono la varianza minima imparziale in condizioni più deboli, ma non lo userei se ci sono valori anomali nei dati. Allo stesso modo, una proprietà come l'invarianza dovrebbe escludere una interazione quando ha senso dire dal punto di vista medico che si verificherebbe senza gli effetti principali?
Michael Chernick,

6

[cercando di rispondere a una parte della domanda originale che sembra essere stata scoperta nella maggior parte delle risposte: "dovrebbe essere attendibile l'AIC, come criterio di selezione del modello?"]

L'AIC dovrebbe essere usato più come linea guida che come regola che dovrebbe essere presa come vangelo.

L'efficacia di AIC (o BIC o qualsiasi altro criterio "semplice" simile per la selezione del modello) dipende fortemente dall'algoritmo di apprendimento e dal problema.

Pensala in questo modo: l'obiettivo del termine complessità (numero di fattori) nella formula AIC è semplice: evitare di selezionare modelli che si adattano troppo. Ma la semplicità di AIC molto spesso non riesce a cogliere la reale complessità del problema stesso. Ecco perché esistono altre tecniche pratiche per evitare un eccesso di adattamento: ad esempio, la convalida incrociata o l'aggiunta di un termine di regolarizzazione.

Quando utilizzo SGD online (discesa gradiente stocastica) per eseguire una regressione lineare su un set di dati con un numero molto elevato di input, trovo che AIC sia un terribile predittore della qualità del modello perché penalizza eccessivamente i modelli complessi con un gran numero di termini. Ci sono molte situazioni di vita reale in cui ogni termine ha un effetto minuscolo, ma insieme un gran numero di essi fornisce una forte evidenza statistica di un risultato. I criteri di selezione dei modelli AIC e BIC rifiuterebbero questi modelli e preferirebbero quelli più semplici, anche se quelli più complessi sono superiori.

Alla fine, è l'errore di generalizzazione (approssimativamente: prestazioni fuori campione) che conta. AIC può darti qualche suggerimento sulla qualità del modello in alcune situazioni relativamente semplici. Fai solo attenzione e ricorda che la vita reale è il più delle volte, più complessa di una semplice formula.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.