Qual è il modo corretto di verificare differenze significative tra i coefficienti?


18

Spero che qualcuno possa aiutarmi a risolvere un punto di confusione per me. Supponiamo di voler verificare se 2 serie di coefficienti di regressione sono significativamente diverse l'una dall'altra, con la seguente impostazione:

  • yi=α+βxi+ϵi , con 5 variabili indipendenti.
  • 2 gruppi, con dimensioni approssimativamente uguali (anche se questo può variare)n1,n2
  • Migliaia di regressioni simili verranno eseguite simultaneamente, quindi è necessario eseguire una sorta di correzione di ipotesi multiple.

Un approccio che mi è stato suggerito è di utilizzare un test Z:

Z=b1b2(SEb12+SEb22)

Un altro che ho visto suggerito su questa scheda è di introdurre una variabile fittizia per il raggruppamento e riscrivere il modello come:

yi=α+βxi+δ(xigi)+ϵi , dove è la variabile di raggruppamento, codificata come 0, 1.g

La mia domanda è: in che modo differiscono questi due approcci (ad es. Ipotesi diverse, flessibilità)? Uno è più appropriato dell'altro? Sospetto che questo sia piuttosto semplice, ma qualsiasi chiarimento sarebbe molto apprezzato.


Credo che le risposte e i commenti a una domanda simile possano fornire alcuni dei chiarimenti che cerchi.
whuber

Grazie whuber. Conoscevo quella risposta. Dalla discussione sotto la risposta accettata (e i tuoi commenti lì) mi è rimasta l'impressione che il confronto dei coefficienti di 2 accoppiamenti separati non fosse appropriato. Uno z-test applicato ai coefficienti dagli accoppiamenti separati non è corretto o la codifica delle variabili fittizie è semplicemente più semplice e fornisce una risposta equivalente?
incassa il

1
Si prega di consultare l'ultimo paragrafo della mia risposta ("La limitazione principale ..."). Il test Z è valido supponendo che sia grande (altrimenti utilizzare al test) e le deviazioni standard stimate non sono troppo diverse l'una dall'altra. Nessuno dei due approcci è il migliore quando le deviazioni standard differiscono molto (approssimativamente, più di un rapporto di 3: 1). S E b iniSEbi
whuber

Risposte:


13

I due approcci differiscono.

Lascia che gli errori standard stimati delle due regressioni siano e . Quindi, poiché la regressione combinata (con tutte le interazioni coefficiente-fittizio) si adatta agli stessi coefficienti, ha gli stessi residui, da cui il suo errore standard può essere calcolato comes 2s1s2

s=(n1p)s12+(n2p)s22)n1+n22p.

Il numero di parametri uguale a nell'esempio: cinque pendenze e un'intercettazione in ciascuna regressione.6p6

Consenti a stimare un parametro in una regressione, stimare lo stesso parametro nell'altra regressione e stimare la loro differenza nella regressione combinata. Quindi i loro errori standard sono correlati dab 2 bb1b2b

SE(b)=s(SE(b1)/s1)2+(SE(b2)/s2)2.

Se non hai effettuato la regressione combinata, ma hai solo statistiche per le regressioni separate, inserisci l'equazione precedente per . Questo sarà il denominatore per il test t. Evidentemente non è lo stesso del denominatore presentato nella domanda.s

L'ipotesi fatta dalla regressione combinata è che le varianze dei residui sono essenzialmente le stesse in entrambe le regressioni separate. In caso contrario, lo z-test non sarà comunque valido (a meno che le dimensioni del campione non siano grandi): si vorrebbe usare un test CABF o un test t Welch-Satterthwaite.


9

Il modo più diretto per verificare la differenza nel coefficiente tra due gruppi è quello di includere un termine di interazione nella regressione, che è quasi ciò che descrivi nella tua domanda. Il modello da eseguire è il seguente:

yi=α+βxi+γgi+δ(xi×gi)+εi

tH0:δ=0gi=0

yi=α+βxi+εi

gi=1

yi=(α+γ)+(β+δ)xi+εi

δ


Grazie per aver corretto il modello (credo che la mia versione precedente semplicemente imponga che l'intercettazione sia la stessa in entrambi i gruppi ...). Più precisamente, sarebbe equivalente allo z-test che ho pubblicato sopra?
incassa il

yi=α+βxi+γgi+εiyi=α+βxi+γgi+δ(xi×gi)+εi

@ matt-blackwell è concettualmente lo stesso di stratificare il modello per ogni valore di g? (cioè b sarebbe il coefficiente di x quando g = 0 e beta + delta quando g = 1) Anche se apprezzo che la stratificazione non consenta un confronto statistico.
bobmcpop
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.