Inclusa l'interazione ma non i principali effetti in un modello


85

È mai valido includere un'interazione bidirezionale in un modello senza includere gli effetti principali? Che cosa succede se la tua ipotesi riguarda solo l'interazione, devi ancora includere gli effetti principali?


3
La mia filosofia è quella di eseguire molti modelli, controllare le loro previsioni, confrontare, spiegare, eseguire più modelli.
Michael Bishop,

11
Se le interazioni sono significative solo quando gli effetti principali sono nel modello, è possibile che gli effetti principali siano significativi e le interazioni no. Considera un effetto principale altamente significativo con una varianza dell'ordine di 100 e un altro effetto principale insignificante per il quale tutti i valori sono approssimativamente uno con una varianza molto bassa. La loro interazione non è significativa, ma l'effetto di interazione sembrerà significativo se gli effetti principali vengono rimossi dal modello.
Thomas Levine,

4
@Thomas dovrebbe essere la tua prima riga "se le interazioni sono significative solo quando gli effetti principali NON sono nel modello, ..."?
Glen,

2
Oh sì, dovrebbe!
Thomas Levine,

Risposte:


55

Nella mia esperienza, non solo è necessario avere tutti gli effetti di ordine inferiore nel modello quando sono collegati a effetti di ordine superiore, ma è anche importante modellare correttamente (ad esempio, permettendo di essere non lineari) gli effetti principali apparentemente non correlati i fattori nelle interazioni di interesse. Questo perché le interazioni tra e possono essere stand-in per gli effetti principali di e . Le interazioni a volte sembrano essere necessarie perché sono collineari con variabili omesse o termini non lineari omessi (es. Spline).x 2 x 3 x 4x1x2x3x4


1
Ciò significa che dovremmo iniziare a cancellare i termini da y ~ x1 * x2 * x3 * x4, iniziando a cancellare i termini di ordine più alto, cioè il normale metodo di cancellazione, giusto?
Curioso

9
La cancellazione dei termini non è consigliata a meno che non sia possibile testare intere classi di termini come un "blocco". Ad esempio, può essere ragionevole conservare o eliminare tutti i termini di interazione oppure conservare o eliminare tutte le interazioni del 3o o 4o ordine.
Frank Harrell,

Cosa c'è di sbagliato nell'eliminare solo alcune delle interazioni in un determinato ordine?
user1205901

3
Se hai un ordine completamente pre-specificato che non è stato determinato guardando i dati, allora potresti essere OK per farlo. In generale, si avranno problemi di co-linearità e molteplicità quando si prendono decisioni multiple usando più valori P.
Frank Harrell,

2
Ritengo che questa risposta non sia chiara e risponda solo parzialmente alla domanda. In effetti, questa risposta afferma che è necessario modellare l'effetto principale, ma non risponde se è valido regredire per concentrarsi solo sull'interazione, che è ed è utilizzata in alcuni modelli come il gPPI (vedi la mia risposta sotto).
gaborous

37

Chiedi se è mai valido. Consentitemi di fornire un esempio comune, la cui spiegazione può suggerire ulteriori approcci analitici per voi.

L'esempio più semplice di un'interazione è un modello con una variabile dipendente e due variabili indipendenti , nella formaX YZXY

Z=α+βX+γY+δXY+ε,

con una variabile di termine casuale che ha zero aspettative e usa i parametri e . Spesso vale la pena verificare se approssima , poiché un'espressione algebricamente equivalente dello stesso modello èα , β , γ , δ δ β γ εα,β,γ,δδβγ

Z=α(1+βX+γY+δXY)+ε

=α(1+βX)(1+γY)+α(δβγ)XY+ε

(dove , ecc.).β=αβ

Quindi, se c'è un motivo per supporre , possiamo assorbirlo nel termine di errore . Questo non solo dà una "pura interazione", ma lo fa senza un termine costante. Questo a sua volta suggerisce fortemente di assumere logaritmi. Una certa eteroscedasticità nei residui - cioè una tendenza per i residui associati a valori maggiori di ad essere più grandi in valore assoluto rispetto alla media - indicherebbe anche in questa direzione. Vorremmo quindi esplorare una formulazione alternativa(δβγ)0εZ

log(Z)=log(α)+log(1+βX)+log(1+γY)+τ

con errore casuale . Inoltre, se prevediamo che e saranno grandi rispetto a , proporremmo invece solo il modelloτβXγY1

log(Z)=(log(α)+log(β)+log(γ))+log(X)+log(Y)+τ

=η+log(X)+log(Y)+τ.

Questo nuovo modello ha un solo parametro invece di quattro parametri ( , , ecc.) Soggetti a una relazione quadratica ( ), una notevole semplificazione.ηαβδ=βγ

Non sto dicendo che questo è un passo necessario o addirittura l'unico da fare, ma sto suggerendo che questo tipo di riarrangiamento algebrico del modello di solito merita di essere preso in considerazione ogni volta che le interazioni da sole sembrano essere significative.

Alcuni eccellenti modi per esplorare i modelli con l'interazione, in particolare con solo due e tre variabili indipendenti, appaiono nei capitoli 10-13 dell'EDA di Tukey .


Puoi fornire un esempio di quando saresti in grado di assumere approssimerebbe zero? È difficile per me pensare a quei termini in relazione ai termini originali e al loro significato. δβγ
djhocking del

@djhocking Qualsiasi situazione in cui la formulazione alternativa sia un buon modello implicherà necessariamente nel primo modello. Un caso speciale è il modello finale, che è una semplice relazione lineare tra e i registri di e , equivale a una relazione moltiplicativa sulla scala originale. Tali rapporti abbondano in natura - dice semplicemente è direttamente proporzionale sia separatamente e . log ( Z ) X Y Z X Y Z X Yα(δβγ)0log(Z)XYZXYZXY
whuber

30

Mentre nei libri di testo viene spesso affermato che non si dovrebbe mai includere un'interazione in un modello senza i corrispondenti effetti principali, ci sono certamente esempi in cui ciò avrebbe perfettamente senso. Ti darò l'esempio più semplice che posso immaginare.

Supponiamo che i soggetti assegnati in modo casuale a due gruppi vengano misurati due volte, una volta al basale (cioè subito dopo la randomizzazione) e una volta dopo che il gruppo T ha ricevuto un qualche tipo di trattamento, mentre il gruppo C no. Quindi un modello di misure ripetute per questi dati includerebbe un effetto principale per l'occasione di misurazione (una variabile fittizia che è 0 per la linea di base e 1 per il follow-up) e un termine di interazione tra il gruppo fittizio (0 per C, 1 per T ) e il tempo fittizio.

Il modello intercetta quindi stima il punteggio medio dei soggetti al basale (indipendentemente dal gruppo in cui si trovano). Il coefficiente per il manichino dell'occasione di misurazione indica la variazione nel gruppo di controllo tra la baseline e il follow-up. E il coefficiente per il termine di interazione indica quanto maggiore / minore fosse la variazione nel gruppo di trattamento rispetto al gruppo di controllo.

Qui, non è necessario includere l'effetto principale per il gruppo, perché alla base i gruppi sono equivalenti per definizione a causa della randomizzazione.

Si potrebbe ovviamente sostenere che l'effetto principale per il gruppo dovrebbe ancora essere incluso, in modo che, nel caso in cui la randomizzazione fallisse, questo sarà rivelato dall'analisi. Tuttavia, ciò equivale a testare i mezzi di base dei due gruppi uno contro l'altro. E ci sono molte persone che aggrottano le sopracciglia per verificare le differenze di base negli studi randomizzati (ovviamente, ci sono anche molte persone che lo trovano utile, ma questo è un altro problema).


4
I problemi sorgono quando la misurazione del tempo zero (basale) viene utilizzata come prima variabile di risposta. La linea di base viene spesso utilizzata come criterio di ingresso per lo studio. Ad esempio, uno studio potrebbe arruolare pazienti con pressione arteriosa sistolica (bp)> 140, quindi randomizzare a 2 trattamenti bp e seguire i bps. Inizialmente, bp ha una distribuzione troncata e le misurazioni successive saranno più simmetriche. È disordinato modellare 2 forme distributive nello stesso modello. Ci sono molte altre ragioni per trattare la linea di base come una covariata di base.
Frank Harrell,

3
Questo è un buon punto, ma studi recenti suggeriscono che questo non è un problema. In effetti, sembra che ci siano più svantaggi nell'utilizzo dei punteggi di base come covariata. Vedi: Liu, GF, et al. (2009). Il basale dovrebbe essere una covariata o una variabile dipendente nelle analisi del cambiamento rispetto al basale negli studi clinici? Statistica in medicina, 28, 2509-2530.
Wolfgang,

3
Ho letto quel giornale. Non è convincente e Liu non ha studiato una varietà di tipi di situazioni di sperimentazione clinica che ho descritto. Ulteriori argomenti sono disponibili su biostat.mc.vanderbilt.edu/wiki/pub/Main/RmS/course2.pdf nel capitolo sull'analisi dei dati seriali (longitudinali).
Frank Harrell,

1
Grazie per il link Presumo che ti riferisca alla discussione al punto 8.2.3. Questi sono alcuni punti interessanti, ma non credo che ciò dia una risposta definitiva. Sono sicuro che l'articolo di Liu et al. non è neanche la risposta definitiva, ma suggerisce ad esempio che la non normalità dei valori di base non è un problema cruciale. Forse questo è qualcosa per un argomento di discussione separato, in quanto non si riferisce direttamente alla domanda del PO.
Wolfgang,

2
Sì, dipende dalla quantità di non normalità. Perché dipendere dalla buona fortuna quando si formula un modello? Ci sono anche molte ragioni puramente filosofiche per trattare le misurazioni del tempo zero come misurazioni di base (vedi citazioni di Senn e Rochon nelle mie note).
Frank Harrell,

19

Il motivo per mantenere i principali effetti nel modello è l'identificabilità. Pertanto, se lo scopo è l'inferenza statistica su ciascuno degli effetti, è necessario mantenere gli effetti principali nel modello. Tuttavia, se il tuo scopo di modellazione è solo quello di prevedere nuovi valori, è perfettamente legittimo includere solo l'interazione se ciò migliora l'accuratezza predittiva.


5
Puoi per favore essere un po 'più esplicito sul problema dell'identificabilità?
Ocram,

6
Non credo che un modello che ometta gli effetti principali sia necessariamente non identificato. Forse intendi "interpretabilità" anziché "identificabilità" (che è un termine tecnico con una definizione precisa)
JMS

6
@JMS: Sì, uccide l'interpretazione. Tuttavia, il termine "identificabilità" viene utilizzato in modo diverso dagli statistici e dagli scienziati sociali. Intendevo quest'ultimo, in cui (parlando in senso lato) si desidera identificare ogni parametro statistico con un costrutto particolare. Rilasciando l'effetto principale non è più possibile abbinare il costrutto al parametro.
Galit Shmueli,

13

questo è implicito in molte delle risposte che altri hanno dato, ma il punto semplice è che i modelli con un termine di prodotto ma senza il moderatore e il predittore sono solo modelli diversi. Capisci cosa significa ciascuno dato il processo che stai modellando e se un modello senza moderatore e predittore ha più senso data la tua teoria o ipotesi. L'osservazione che il termine prodotto è significativo, ma solo quando il moderatore e il predittore non sono inclusi non ti dice nulla (tranne forse che stai cercando un "significato") senza una spiegazione convincente del perché abbia senso lasciarli fuori .


Sono venuto qui per studiare l'interpretazione dei principali effetti in presenza di un significativo termine di interazione e questa risposta mi ha davvero aiutato molto. Grazie!
Patrick Williams,

9

Probabilmente dipende da cosa stai usando il tuo modello. Ma non ho mai visto un motivo per non eseguire e descrivere modelli con effetti principali, anche nei casi in cui l'ipotesi riguarda solo l'interazione.


Cosa succede se l'interazione è significativa solo quando gli effetti principali non sono nel modello?
Glen,

3
@Glen - Ci sono molte cose a cui pensare oltre al significato statistico. Vedere questo . Meglio esaminare l'adattamento globale del modello (tracciare i tuoi residui rispetto alle previsioni per ogni modello adatto), la tua teoria e le tue motivazioni per la modellazione.
Michael Bishop,

7

Prenderò in prestito un paragrafo dal libro Un'introduzione all'analisi della sopravvivenza usando Stata di M.Cleves, R.Gutierrez, W.Gould, Y.Marchenko a cura della stampa di Stata per rispondere alla tua domanda.

È comune leggere che gli effetti di interazione dovrebbero essere inclusi nel modello solo quando sono inclusi anche gli effetti principali corrispondenti, ma non c'è nulla di sbagliato nell'includere da soli gli effetti di interazione. [...] L'obiettivo di un ricercatore è di parametrizzare ciò che è ragionevolmente probabile che sia vero per i dati considerando il problema in questione e non semplicemente seguendo una prescrizione.


3
Consiglio assolutamente terribile.
Frank Harrell,

3
@Frank, ti ​​dispiacerebbe espandere il tuo commento? A prima vista, "parametrizzare ciò che è ragionevolmente probabile che sia vero per i dati" ha molto senso.
whuber

6
Vedi stats.stackexchange.com/questions/11009/… . I dati non sono in grado di dirti ciò che è vero e tale approccio dipende fortemente dall'origine della misurazione per le variabili che vengono moltiplicate. Valutare gli effetti di interazione isolata della temperatura in Fahrenheit darà un quadro diverso rispetto a quando si utilizza Celsius.
Frank Harrell,

@Frank: Grazie, l'ho trovato :-). Ora fa parte di questo thread.
whuber

7

Sia x che y saranno correlati con xy (a meno che non sia stata presa una misura specifica per impedirlo usando la centratura). Pertanto, se si ottiene un sostanziale effetto di interazione con il proprio approccio, si tratterà probabilmente di uno o più effetti principali mascherati da interazione. Ciò non produrrà risultati chiari e interpretabili. Ciò che è desiderabile è invece vedere quanto l'interazione può spiegare oltre a ciò che fanno gli effetti principali, includendo x , y e (preferibilmente in una fase successiva) xy .

Per quanto riguarda la terminologia: sì, β 0 è chiamata "costante". D'altra parte, "parziale" ha significati specifici nella regressione e quindi non userei questo termine per descrivere la tua strategia qui.

Alcuni esempi interessanti che sorgeranno una volta in una luna blu sono descritti in questo thread .


7

Suggerirei che è semplicemente un caso speciale di incertezza del modello. Dal punto di vista bayesiano, lo trattate esattamente nello stesso modo in cui trattereste qualsiasi altro tipo di incertezza, mediante:

  1. Calcolo della sua probabilità, se è l'oggetto di interesse
  2. Integrarlo o fare una media, se non è di interesse, ma può comunque influenzare le tue conclusioni

Questo è esattamente ciò che le persone fanno quando testano "effetti significativi" usando t-quantili invece di normali quantili. Poiché hai incertezza sul "livello di rumore reale", tieni conto di ciò utilizzando una distribuzione più diffusa nei test. Quindi dal tuo punto di vista l '"effetto principale" è in realtà un "parametro fastidioso" in relazione alla domanda che stai ponendo. Quindi fai una media dei due casi (o più in generale, rispetto ai modelli che stai considerando). Quindi avrei l'ipotesi (vaga):

Hint:The interaction between A and B is significant
Direi che sebbene non sia stata definita con precisione, questa è la domanda a cui vuoi rispondere qui. E nota che non sono le dichiarazioni verbali come sopra che "definiscono" l'ipotesi, ma anche le equazioni matematiche. Abbiamo alcuni dati e le informazioni precedenti , quindi calcoliamo semplicemente: (piccola nota: non importa quante volte scrivo questa equazione, mi aiuta sempre a capire meglio il problema. Strano). La quantità principale da calcolare è la probabilità , questo non fa alcun riferimento al modello, quindi il modello deve essere stato rimosso usando la legge della probabilità totale: DI
P(Hint|DI)=P(Hint|I)P(D|HintI)P(D|I)
P(D|HintI)
P(D|HintI)=m=1NMP(DMm|HintI)=m=1NMP(Mm|HintI)P(D|MmHintI)
Dove indicizza il mth modello e è il numero di modelli considerati. Il primo termine è il "peso del modello" che indica quanto i dati e le informazioni precedenti supportano il modello mth. Il secondo termine indica quanto il modello mth supporti l'ipotesi. Ricollegando questa equazione al teorema originale di Bayes si ottiene: MmNM
P(Hint|DI)=P(Hint|I)P(D|I)m=1NMP(Mm|HintI)P(D|MmHintI)
=1P(D|I)m=1NMP(DMm|I)P(MmHintD|I)P(DMm|I)=m=1NMP(Mm|DI)P(Hint|DMmI)

E da questo si può vedere che è la "conclusione condizionale" dell'ipotesi secondo il modello mth (questo di solito è tutto ciò che viene considerato, per un modello "migliore" scelto ). Si noti che questa analisi standard è giustificata ogni volta che - un modello "ovviamente migliore" - o ogni volta che - tutti i modelli danno le stesse / conclusioni simili. Tuttavia, se nessuno dei due è soddisfatto, il Teorema di Bayes afferma che la procedura migliore è quella di calcolare la media dei risultati, ponendo pesi più elevati sui modelli che sono maggiormente supportati dai dati e dalle informazioni precedenti.P ( M m | D I ) 1 P ( H i n t | D M j I ) P ( H i n t | D M k I )P(Hint|DMmI)P(Mm|DI)1P(Hint|DMjI)P(Hint|DMkI)


5

Molto raramente è una buona idea includere un termine di interazione senza i principali effetti in esso coinvolti. David Rindskopf di CCNY ha scritto alcuni articoli su quei rari casi.


5

Esistono vari processi in natura che coinvolgono solo un effetto di interazione e leggi che li decretano. Ad esempio la legge di Ohm. In psicologia hai ad esempio il modello di performance di Vroom (1964): Performance = Ability x Motivation.Ora, potresti aspettarti di trovare un effetto di interazione significativo quando questa legge è vera. Purtroppo, non è così. Potresti facilmente trovare due effetti principali e un effetto di interazione insignificante (per una dimostrazione e ulteriori spiegazioni vedi Landsheer, van den Wittenboer e Maassen (2006), Social Science Research 35, 274-294). Il modello lineare non è molto adatto per rilevare effetti di interazione; Ohm non avrebbe mai trovato la sua legge quando avesse usato modelli lineari.

Di conseguenza, è difficile interpretare gli effetti dell'interazione nei modelli lineari. Se hai una teoria che prevede un effetto di interazione, dovresti includerlo anche se insignificante. Potresti voler ignorare gli effetti principali se la tua teoria li esclude, ma lo troverai difficile, poiché effetti principali significativi si trovano spesso nel caso di un vero meccanismo di generazione di dati che ha solo un effetto moltiplicativo.

La mia risposta è: Sì, può essere valido includere un'interazione a due vie in un modello senza includere gli effetti principali. I modelli lineari sono strumenti eccellenti per approssimare i risultati di una grande varietà di meccanismi di generazione dei dati, ma le loro formule non possono essere facilmente interpretate come una descrizione valida del meccanismo di generazione dei dati.


4

Questo è complicato e mi è successo nel mio ultimo progetto. Spiegherei in questo modo: supponiamo che tu abbia avuto variabili A e B che sono emerse in modo indipendente e dal punto di vista commerciale hai pensato che un'interazione di A e B sembra buona. Hai incluso l'interazione risultata significativa ma B ha perso significato. Spiegheresti inizialmente il tuo modello mostrando due risultati. I risultati mostrerebbero che inizialmente B era significativo ma, visto alla luce di A, perse la sua lucentezza. Quindi B è una buona variabile ma solo se vista alla luce dei vari livelli di A (se A è una variabile categoriale). È come dire che Obama è un buon leader se visto alla luce del suo esercito SEAL. Quindi il sigillo Obama * sarà una variabile significativa. Ma Obama visto da solo potrebbe non essere così importante. (Senza offesa per Obama, solo un esempio.)


1
Qui è un po 'l'opposto. L'interazione (di interesse) è significativa solo quando gli effetti principali non sono nel modello.
Glen,

3

F = m * a, la forza è uguale all'accelerazione di massa.

Non è rappresentato come F = m + a + ma, o qualche altra combinazione lineare di tali parametri. In effetti, solo l'interazione tra massa e accelerazione avrebbe senso fisicamente.


2
Ciò che si applica a un'equazione fisica incontrovertibile che non ha spazio per la variabilità non si applica necessariamente o non è necessariamente vero, accurato o produttivo quando si modellano dati caratterizzati da variabilità.
rolando2,

2

Interazione con e senza effetto principale.  Il blu è una condizione.  Un altro rosso.  I loro rispettivi effetti sono testati su tre misurazioni consecutive.

È mai valido includere un'interazione a due vie senza effetto principale?

Sì, può essere valido e persino necessario. Se, ad esempio, in 2. includessi un fattore per l'effetto principale (differenza media tra blu e rosso) ciò peggiorerebbe il modello.

Che cosa succede se la tua ipotesi riguarda solo l'interazione, devi ancora includere gli effetti principali?

La tua ipotesi potrebbe essere vera indipendentemente dall'effetto principale. Ma il modello potrebbe averne bisogno per descrivere al meglio il processo sottostante. Quindi sì, dovresti provare con e senza.

Nota: è necessario centrare il codice per la variabile indipendente "continua" (misurazione nell'esempio). In caso contrario, i coefficienti di interazione nel modello non verranno distribuiti simmetricamente (nessun coefficiente per la prima misurazione nell'esempio).



1

Sì, questo può essere valido, anche se è raro. Ma in questo caso devi ancora modellare gli effetti principali, che successivamente regredirai.

In effetti, in alcuni modelli, solo l'interazione è interessante, come i test farmacologici / i modelli clinici. Questa è ad esempio la base del modello Generalized PsychoPhysiological Interactions (gPPI): y = ax + bxh + chdove x/ysono i voxel / le regioni di interesse e hi progetti di blocco / eventi.

In questo modello, entrambi ae csaranno regrediti, bverranno mantenuti solo per deduzione (i coefficienti beta). In effetti, entrambi ae crappresentano l'attività spuria nel nostro caso e brappresentano solo ciò che non può essere spiegato dall'attività spuria, l'interazione con l'attività.


1

La risposta breve: se includi l'interazione negli effetti fissi, gli effetti principali vengono automaticamente inclusi indipendentemente dal fatto che tu li includa o meno nel tuo codice . L'unica differenza è la tua parametrizzazione, vale a dire cosa significano i parametri nel tuo modello (ad esempio, sono mezzi di gruppo o sono differenze rispetto ai livelli di riferimento).

Presupposti: suppongo che stiamo lavorando nel modello lineare generale e ci chiediamo quando possiamo usare la specifica di effetti fissi invece di , dove e sono fattori (categorici).A + B + A B A BABA+B+ABAB

Chiarimento matematico: assumiamo che il vettore di risposta . Se , e sono le matrici di progettazione per i tre fattori, un modello con "effetti principali e interazione" corrisponde alla restrizione span . Un modello con "solo interazione" corrisponde alla restrizione span . Tuttavia , span span . Quindi, si tratta di due diverse parametrizzazioni della stesso modelloX A X B X A B ξ { X A , X B , X A B } ξ { X A B } { X A B } = { X A , X B , X A B }YN(ξ,σ2In)XAXBXABξ{XA,XB,XAB}ξ{XAB}{XAB}={XA,XB,XAB} (o la stessa famiglia di distribuzioni se ti senti più a tuo agio con quella terminologia).

Ho appena visto che David Beede ha fornito una risposta molto simile (scuse), ma ho pensato che avrei lasciato perdere questo argomento per coloro che rispondono bene a una prospettiva di algebra lineare.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.