In una regressione, il termine di interazione cancella entrambi gli effetti diretti correlati. Eliminare l'interazione o segnalare l'esito? L'interazione non faceva parte dell'ipotesi originale.
In una regressione, il termine di interazione cancella entrambi gli effetti diretti correlati. Eliminare l'interazione o segnalare l'esito? L'interazione non faceva parte dell'ipotesi originale.
Risposte:
Penso che questo sia difficile; come hai accennato, c'è un "rischio morale" qui: se non avessi guardato l'interazione, saresti libero e chiaro, ma ora che hai il sospetto che si trascinino i dati se lo lasci cadere.
La chiave è probabilmente una modifica del significato dei tuoi effetti quando passi dal modello a interazione solo dagli effetti principali. Ciò che ottieni per gli "effetti principali" dipende molto da come sono codificati i tuoi trattamenti e contrasti. In R, il valore predefinito è il contrasto del trattamento con i livelli dei primi fattori (quelli con i nomi in ordine alfabetico a meno che non si sia fatto del tutto per codificarli in modo diverso) come livelli di base.
Dì (per semplicità) che hai due livelli, "control" e "trt", per ogni fattore. Senza l'interazione, il significato del parametro 'v1.trt' (supponendo che il trattamento sia in contrasto con l'impostazione predefinita in R) è "differenza media tra il gruppo 'v1.control' e 'v1.trt'"; il significato del parametro 'v2.trt' è "differenza media tra 'v2.control' e 'v2.trt'".
Con l'interazione, 'v1.trt' è la differenza media tra 'v1.control' e 'v1.trt' nel gruppo 'v2.control' , e allo stesso modo 'v2.trt' è la differenza media tra i gruppi v2 nel gruppo "v1.control". Pertanto, se si hanno effetti di trattamento abbastanza piccoli in ciascuno dei gruppi di controllo, ma un effetto grande nei gruppi di trattamento, si potrebbe facilmente vedere quello che si sta vedendo.
L'unico modo in cui riesco a vederlo accadere senza un significativo termine di interazione, tuttavia, è se tutti gli effetti sono abbastanza deboli (quindi ciò che intendi veramente per "effetto scomparso" è che sei passato da p = 0,06 a p = 0,04, attraverso la linea di significato magico).
Un'altra possibilità è che stai "sfruttando troppi gradi di libertà", ovvero le stime dei parametri non cambiano molto, ma il termine di errore residuo è sufficientemente gonfiato dal dover stimare altri 4 [= (2- 1) * (5-1)] parametri che i termini significativi diventano non significativi. Ancora una volta, me lo aspetterei solo con un piccolo set di dati / effetti relativamente deboli.
Una possibile soluzione è quella di passare alla somma dei contrasti, anche se questo è anche delicato: devi essere convinto che "effetto medio" è significativo nel tuo caso. La cosa migliore è tracciare i dati e guardare i coefficienti e capire cosa sta succedendo in termini di parametri stimati.
Spero che sia d'aiuto.
Sei sicuro che le variabili siano state espresse in modo appropriato? Considera due variabili indipendenti e X 2 . L'affermazione del problema afferma che stai ottenendo un buon adattamento nel modulo
Questo può essere riscritto
vale a dire, se riesprimi le tue variabili nel modulo
quindi il modello è lineare e probabilmente presenta residui omoscedastici:
Questa analisi mostra come sia possibile - anche probabilmente in alcune applicazioni - avere un modello in cui gli unici effetti sembrano essere interazioni. Ciò si verifica quando le variabili (indipendenti, dipendenti o entrambe) vengono presentate all'utente in una forma inadatta e i loro logaritmi sono un obiettivo più efficace per la modellazione. Le distribuzioni delle variabili e dei residui iniziali forniscono gli indizi necessari per determinare se questo può essere il caso: le distribuzioni distorte delle variabili e l'eteroscedasticità dei residui (in particolare, con varianze approssimativamente proporzionali ai valori previsti) sono gli indicatori.
Questo in genere introduce un'elevata multicollinearità poiché il prodotto sarà fortemente correlato con entrambe le variabili originali. Con la multicollinearità, le stime dei singoli parametri dipendono fortemente dalle altre variabili considerate, come nel tuo caso. Come contromisura, centrare le variabili spesso riduce la multicollinearità quando si considera l'interazione.
Non sono sicuro che ciò si applichi direttamente al tuo caso poiché sembra che tu abbia predittori categorici ma usi il termine "regressione" anziché "ANOVA". Naturalmente quest'ultimo caso è essenzialmente lo stesso modello, ma solo dopo aver scelto lo schema di codifica del contrasto come ha spiegato Ben.
Questo può essere un problema di interpretazione, un fraintendimento di cosa sia realmente un cosiddetto coefficiente di "effetto diretto".
Nei modelli di regressione con variabili predittive continue e senza termini di interazione, ovvero senza termini che sono costruiti come il prodotto di altri termini, il coefficiente di ciascuna variabile è la pendenza della superficie di regressione nella direzione di quella variabile. È costante, indipendentemente dai valori delle variabili, ed è ovviamente una misura dell'effetto di quella variabile.
Nei modelli con interazioni - ovvero con termini che sono costruiti come prodotti di altri termini - tale interpretazione può essere fatta senza ulteriore qualificazione solo per le variabili che non sono coinvolte in alcuna interazione. Il coefficiente di una variabile che è coinvolta nelle interazioni è la pendenza della superficie regressione nella direzione di tale variabile , quando i valori di tutte le variabili che interagiscono con la variabile in questione sono nulli , e il test di significatività del coefficiente riferisce pendenza della superficie di regressione solo in quella regione dello spazio predittore. Poiché non è necessario che vi siano effettivamente dati in quella regione dello spazio, il coefficiente di effetto diretto apparente può avere poca somiglianza con la pendenza della superficie di regressione nella regione dello spazio predittore in cui i dati sono stati effettivamente osservati. Non esiste un vero "effetto diretto" in tali casi; il miglior sostituto è probabilmente l '"effetto medio": la pendenza della superficie di regressione nella direzione della variabile in questione, presa in ciascun punto dati e mediata su tutti i punti dati. Per ulteriori informazioni, vedi Perché il centrare variabili indipendenti può modificare gli effetti principali con moderazione?