Come verificare se un coefficiente di regressione è moderato da una variabile di raggruppamento?

Ho fatto una regressione su due gruppi del campione sulla base di una variabile moderatrice (diciamo genere). Sto facendo un semplice test per l'effetto moderatore controllando se il significato della regressione si perde su un set mentre rimane nell'altro.

Q1: il metodo sopra è valido, no?

Q2: il livello di confidenza della mia ricerca è fissato al 95%. Per un gruppo, la regressione è significativa a .000. Per l'altro, è significativo a 0,038 Quindi, credo di dover accettare entrambe le regressioni come significative e che non ci sono effetti moderatori. Accettare la regressione è significativo, mentre è dimostrato che non è a 0,01. Sto causando un errore di tipo I (accettando l'argomento falsy)?

regression type-i-and-ii-errors interaction

— scorpione
fonte

Il tuo metodo non sembra rispondere alla domanda, supponendo che un "effetto moderatore" sia una variazione di uno o più coefficienti di regressione tra i due gruppi. I test di significatività nella regressione valutano se i coefficienti sono diversi da zero. Il confronto dei valori di p in due regressioni ti dice poco (se non altro) sulle differenze di quei coefficienti tra i due campioni.

Invece, introdurre il genere come variabile fittizia e interagire con tutti i coefficienti di interesse. Quindi verificare la significatività dei coefficienti associati.

Ad esempio, nel caso più semplice (di una variabile indipendente) i tuoi dati possono essere espressi come un elenco di tuple cui sono i sessi, codificati come e . Il modello per il genere è $(x_i, y_i, g_i)$ $g_i$ $0$ $1$ $0$

y_{i} = α_{0} + β_{0} x_{i} + ε_{i}

$y_i = \alpha_0 + \beta_0 x_i + \varepsilon_i$

(dove indicizza i dati per cui ) e il modello per genere è $i$ $g_i = 0$ $1$

y_{i} = α_{1} + β_{1} x_{i} + ε_{i}

$y_i = \alpha_1 + \beta_1 x_i + \varepsilon_i$

(dove indicizza i dati per i quali ). I parametri sono , , e . Gli errori sono i . Supponiamo che siano indipendenti e identicamente distribuiti con zero mezzi. Un modello combinato per verificare la differenza di pendenze (i ) può essere scritto come $i$ $g_i = 1$ $\alpha_0$ $\alpha_1$ $\beta_0$ $\beta_1$ $\varepsilon_i$ $\beta$

y_{i} = α + β_{0} x_{i} + (β_{1} - β_{0}) (x_{i} g_{i}) + ε_{i}

$y_i = \alpha + \beta_0 x_i + (\beta_1 - \beta_0) (x_i g_i) + \varepsilon_i$

(dove varia su tutti i dati) perché quando si imposta l'ultimo termine viene eliminato, dando il primo modello con e quando si imposta i due multipli di combinano per dare , dando il secondo modello con . Pertanto, è possibile verificare se le pendenze sono uguali (l '"effetto moderatore") adattando il modello $i$ $g_i=0$ $\alpha = \alpha_0$ $g_i=1$ $x_i$ $\beta_1$ $\alpha = \alpha_1$

y_{io} = α + β X_{io} + γ (X_{io} g_{io}) + ε_{io}

$y_i = \alpha + \beta x_i + \gamma (x_i g_i) + \varepsilon_i$

$\hat{\gamma}$

y_{io} = α + δ g_{io} + β X_{io} + γ (X_{io} g_{io}) + ε_{io} .

$y_i = \alpha + \delta g_i + \beta x_i + \gamma (x_i g_i) + \varepsilon_i.$

$\hat{\delta}$

$\varepsilon_i$

— whuber
fonte

Grazie posso capire come funziona. Questo metodo funziona se ho più variabili di moderazione? Ad esempio, regione (rurale / urbana), livello di istruzione (istruzione superiore / inferiore)? Posso aggiungere ulteriori variabili fittizie e testare l'effetto?

— scorpione

@whuber, di tanto in tanto mi imbatto in situazioni funzionalmente simili in cui l'analista divide semplicemente il campione nei due gruppi, usa lo stesso insieme di variabili indipendenti per entrambi i gruppi e confronta qualitativamente solo i coefficienti. C'è qualche vantaggio in quella situazione che ho appena descritto in questa formulazione dell'uso degli effetti di interazione?

— Andy W,

@Andy Senza alcuna intenzione di sembrare critico o deprecante, l'unico vantaggio che mi viene in mente per il metodo qualitativo è che non richiede alcuna comprensione o competenza dell'analista: questo lo rende accessibile a più persone. L'approccio qualitativo è irto di difficoltà. Ad esempio, ci possono essere grandi differenze apparenti tra le pendenze e le intercettazioni solo per caso. Una valutazione qualitativa dei soli coefficienti non sarà in grado di distinguere questa situazione dagli effetti reali.

— whuber

@whuber, il mio pensiero iniziale era lo stesso e di recente ho dato lo stesso suggerimento a un collega che ha ignorato il suggerimento per motivi di semplicità (come hai accennato). Ho pensato che forse il commento sull'ipotesi che le varianze di errore fossero le stesse per entrambi i sessi potrebbe rendere l'approccio dei due modelli più appropriato dato che l'ipotesi è stata violata.

— Andy W,

@Andy Sì, ma la possibilità di varianze diverse non aumenta il valore di un confronto non qualitativo. Piuttosto, richiederebbe un confronto quantitativo più sfumato delle stime dei parametri. Ad esempio, come approssimazione approssimativa (ma informativa), si potrebbe eseguire una variante di un test T CABF o Satterthwaite in base alle varianze di errore stimate e ai loro gradi di libertà. Anche l'esame visivo di un diagramma a dispersione ben costruito sarebbe facile e molto più informativo rispetto al semplice confronto dei coefficienti di regressione.

— whuber

-1

Immagino che la moderazione di una variabile di raggruppamento funzionerebbe altrettanto bene quando si confrontano i coefficienti di regressione attraverso ondate indipendenti di dati trasversali (ad esempio, anno1, anno2 e anno3 come gruppo1 gruppo2 e gruppo3)?

— bloodnut
fonte