Modello congiunto con termini di interazione vs. regressioni separate per un confronto di gruppo


13

Dopo aver raccolto feedback preziosi da precedenti domande e discussioni, ho formulato la seguente domanda: Supponiamo che l'obiettivo sia rilevare differenze di effetto tra due gruppi, maschio contro femmina per esempio. Ci sono due modi per farlo:

  1. eseguendo due regressioni separate per i due gruppi e impiegando il test Wald per rifiutare (o meno) l'ipotesi nulla : , dove è il coefficiente di un IV nella regressione maschile e è il coefficiente dello stesso IV nella regressione femminile.b 1 - b 2 = 0 b 1 b 2H0b1b2=0b1b2

  2. mettere insieme i due gruppi ed eseguire un modello comune includendo un manichino di genere e un termine di interazione (IV * manichino di genere). Quindi, il rilevamento dell'effetto di gruppo si baserà sul segno di interazione e sul test t per la significatività.

Che cosa succede se Ho viene rifiutato nel caso (1), ovvero la differenza di gruppo è significativa, ma il coefficiente del termine di interazione nel caso (2) è statisticamente insignificante, ovvero la differenza di gruppo è insignificante. O viceversa, Ho non è rifiutato nel caso (1) e il termine di interazione è significativo nel caso (2). Ho finito con questo risultato diverse volte e mi chiedevo quale risultato sarebbe stato più affidabile e qual è la ragione dietro questa contraddizione.

Grazie molto!


1
la differenza tra le procedure è che si assume la stessa varianza per entrambi i gruppi. L'analisi separata presuppone varianze diverse.
Probislogic,

Grazie mille! Sei a conoscenza di qualsiasi riferimento che discuti il ​​problema delle varianze quando si confrontano modelli diversi?
Bill718,

Risposte:


7

Il primo modello interagirà pienamente con il genere con tutte le altre covariate nel modello. In sostanza, l'effetto di ciascuna covariata (b2, b3 ... bn). Nel secondo modello, l'effetto del genere è interagito solo con il tuo IV. Quindi, supponendo che tu abbia più covariate rispetto al solo IV e al genere, questo potrebbe portare a risultati leggermente diversi.

Se hai solo le due covariate, ci sono occasioni documentate in cui la differenza di massimizzazione tra il test Wald e il test del rapporto di verosimiglianza porta a risposte diverse (vedi di più su Wikipedia ).

Nella mia esperienza, cerco di essere guidato dalla teoria. Se esiste una teoria dominante che suggerisce che il genere interagirebbe solo con la IV, ma non con le altre covariate, andrei con l'interazione parziale.


Grazie! Sì, in realtà ci sono varie covariate, non solo un IV, ho appena menzionato un IV nella domanda per semplicità. Il fatto è che non esiste una teoria forte che possa supportare l'interazione tra genere e determinate covariate, è l'analisi esplorativa, quindi ho bisogno di sperimentare molte interazioni e adattamenti di modelli; il modello iniziale contiene 30 predittori ...
Bill718

@ Bill718 Anche i modelli separati avranno un'intercettazione diversa, mentre il modello singolo no, a meno che non si specifichi il genere da solo come IV aggiuntivo (non solo come interazione).
Robert Kubrick,

5

Ogni volta che vengono utilizzate due diverse procedure per verificare una particolare ipotesi, ci saranno diversi valori p. Dire che uno è significativo e l'altro non lo è può essere solo prendere una decisione in bianco e nero a livello 0,05. Se un test dà un valore p di 0,03 e l'altro dice 0,07 non definirei i risultati contraddittori. Se stai per essere così severo nel pensare al significato, è facile che si verifichi una situazione (i) o (ii) quando è rilevante il significato di base.

Come ho accennato in risposta alla domanda precedente, la mia preferenza per la ricerca di un'interazione è fare una regressione combinata.


Sì, è vero che la regressione combinata sembra funzionare meglio, almeno nel mio caso, ed è un metodo molto flessibile, dal momento che qualcuno potrebbe provare diverse interazioni e adattamenti del modello. Volevo solo, per curiosità "statistica", diciamo , per scoprire qual è la ragione dietro i risultati in qualche modo diversi. Per quanto riguarda i valori di p, ho sentito alcune persone accettare il significato solo a un livello = 0,5% o inferiore. Sono più flessibile, usando un livello = 1%, ma il grande mal di testa arriva quando i valori di p sono completamente diversi.
Bill718,

Ho visto studi ad esempio, in cui un IV è molto significativo quando viene impiegato un modet logit ordinato, mentre lo stesso IV diventa insignificante quando viene applicato un OLS. Quindi, in tal caso, la spiegazione dei risultati può essere un po 'complicata. Grazie mille per i tuoi commenti e feedback!
Bill718,

+1, il punto circa è eccellente. 0.070.03
gung - Ripristina Monica

2

Nel secondo caso, un software standard suggerirebbe un t-stat con valori di t-student, mentre per il primo caso i test di Wald potrebbero avere due opzioni. In caso di errori ipotesi di normalità la statistica di Wald segue una statistica di Fisher esatta (che equivale alla t-stat in quanto assume la normalità dell'errore). Mentre sotto la normalità asintotica, la statistica di Wald segue una distribuzione Chi2 (che è analoga a una t-stat a seguito di una distribuzione normale asintoticamente) Quale distribuzione stai assumendo? A seconda di ciò, i tuoi valori p rischiano di darti risultati diversi.

Nei libri di testo troverai che per i singoli test bilaterali (un parametro) sia le statistiche t-student che Fisher sono equivalenti.

Se il tuo campione non è grande, confrontando i valori di chi2 e t-stat si otterrebbero risultati diversi per certi. In tal caso, ipotizzare una distribuzione asintotica non sarebbe ragionevole. Se il campione è piuttosto piccolo, quindi supponendo che la normalità sembri più ragionevole, ciò implica rispettivamente i valori t-stat e Fisher per i casi 2 e 1.


In effetti, ho due campioni di dimensioni disuguali, il primo ha 3000 osservazioni, ma il secondo è relativamente piccolo, 500 osservazioni. E il software riporta chi-square durante il calcolo delle statistiche Wald. Quindi, sembra che questa sia la ragione della discrepanza. Tuttavia, entrambi i campioni sono normalmente distribuiti, soprattutto nel caso del campione di grandi dimensioni. Grazie molto!
Bill718,

1
Mi dispiace ingannarti, ma le dimensioni disuguali del sottocampione non sono un problema. Inoltre il tuo mi sembra un grande campione. quindi entrambe le procedure dovrebbero produrre risultati simili. Ho notato che @probabilityislogic ha fatto un buon punto. L'uso di un campione aggregato implica varianze residue uguali, quindi può essere una fonte di eterogeneità. Non so come stai implementando la procedura di regressione separata, ma è facile commettere errori se stai calcolando la statistica da solo. Questo rende la regressione aggregata un approccio sicuro e diretto.
JDav,

1
Per risolvere il problema delle disparità ineguali tra i gruppi (eterosckedasticità), provare uno stimatore di varianza White (aka Newey-west, Sandwich o Robust se si utilizza stata). Questo approccio corregge i tipi sconosciuti di eteroscedascità.
JDav,

Oh, ok, vedo, in realtà le osservazioni nel campione provengono da diverse regioni di un paese, quindi è molto probabile che esistano problemi di eterogeneità!
Bill718,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.