Verifica dell'uguaglianza dei coefficienti da due diverse regressioni


44

Questo sembra essere un problema di base, ma mi sono appena reso conto che in realtà non so come testare l'uguaglianza dei coefficienti da due diverse regressioni. Qualcuno può far luce su questo?

Più formalmente, supponiamo di aver eseguito le due regressioni seguenti: e dove riferisce alla matrice di progettazione della regressione e al vettore dei coefficienti in regressione . Si noti che e sono potenzialmente molto diversi, con dimensioni diverse ecc. Sono interessato, ad esempio, a .y 2 = X 2 β 2 + ε 2 X i i β i i X 1 X 2 β 11β 21

y1=X1β1+ϵ1
y2=X2β2+ϵ2
XiiβiiX1X2β^11β^21

Se questi provenissero dalla stessa regressione, sarebbe banale. Ma dal momento che provengono da diversi, non sono sicuro di come farlo. Qualcuno ha un'idea o può darmi alcuni suggerimenti?

Il mio problema in dettaglio: la mia prima intuizione è stata quella di guardare gli intervalli di confidenza, e se si sovrappongono, direi che sono essenzialmente gli stessi. Questa procedura non viene fornita con le dimensioni corrette del test, tuttavia (ad esempio ogni intervallo di confidenza individuale ha , diciamo, ma osservarli insieme non avrà la stessa probabilità). La mia "seconda" intuizione era quella di condurre un normale test t. Cioè, prendiα=0.05

β11β21sd(β11)

dove è preso come il valore della mia ipotesi nulla. Questo non tiene conto dell'incertezza di stima di , tuttavia, e la risposta può dipendere dall'ordine delle regressioni (che io chiamo 1 e 2). β 21β21β21

La mia terza idea era di farlo come in un test standard per l'uguaglianza di due coefficienti dalla stessa regressione, ovvero prendere

β11β21sd(β11β21)

La complicazione sorge a causa del fatto che entrambi provengono da regressioni diverse. Nota che

C o v ( β 11 , β 21 )

Var(β11β21)=Var(β11)+Var(β21)2Cov(β11,β21)
ma poiché provengono da regressioni diverse, come ottengo ?Cov(β11,β21)

Questo mi ha portato a porre questa domanda qui. Questa deve essere una procedura standard / test standard, ma non trovo nulla che sia sufficientemente simile a questo problema. Quindi, se qualcuno può indicarmi la procedura corretta, sarei molto grato!


2
Ciò sembra essere correlato alla modellazione di equazioni strutturali / simultanee. Un modo per risolvere questo problema consiste nell'adattare simultaneamente entrambe le equazioni, ad es. Con la massima probabilità, e quindi utilizzare un test del rapporto di verosimiglianza di un vincolo (modello di parametri uguali) rispetto a un modello non vincolato. Praticamente questo può essere fatto con il software SEM (Mplus, lavaan ecc.)
tomka,

2
Sai di Seemingly Unrelated Regression (SUR)?
Dimitriy V. Masterov

2
Penso che la domanda del tuo rilancio, ovvero come ottenere la cov di entrambi i coefficienti, sia risolta da SEM, che ti darebbe la matrice var-cov di tutti i coefficienti. Quindi è possibile utilizzare un test Wald nel modo suggerito anziché un test LRT. Inoltre potresti anche usare il ricampionamento / bootstrap, che potrebbe essere più diretto.
tomka,

3
Sì, hai ragione, @tomka. In un modello SUR (che puoi prendere in considerazione vagamente un caso speciale di modelli SEM), posso ottenere il test appropriato. Grazie per avermi indicato in quella direzione! Penso di non averci pensato perché sembra un po 'come sparare a un passero con un cannone, ma non riesco davvero a pensare a un modo migliore. Se scrivi una risposta, la segnerò come corretta. Altrimenti, lo scriverò presto, con una rapida spiegazione teorica e potenzialmente con un esempio.
coffeinjunky,

1
SUR è abbastanza facile da implementare. Ecco un esempio con Stata . Con R vuoi systemfit .
Dimitriy V. Masterov,

Risposte:


30

Sebbene questa non sia un'analisi comune, è davvero interessante. La risposta accettata si adatta al modo in cui hai posto la tua domanda, ma fornirò un'altra tecnica ragionevolmente ben accettata che potrebbe essere o non essere equivalente (lascerò alle menti migliori di commentare).

Questo approccio consiste nell'utilizzare il seguente test Z:

Z=β1β2(SEβ1)2+(SEβ2)2

Dove è l'errore standard di .βSEββ

Questa equazione è fornita da Clogg, CC, Petkova, E. e Haritou, A. (1995). Metodi statistici per confrontare i coefficienti di regressione tra i modelli. American Journal of Sociology , 100 (5), 1261-1293. ed è citato da Paternoster, R., Brame, R., Mazerolle, P., e Piquero, A. (1998). Utilizzo del test statistico corretto per l'uguaglianza dei coefficienti di regressione. Criminologia , 36 (4), 859-866. equazione 4, disponibile gratuitamente da un paywall. Ho adattato la formula di Peternoster per usare anzichéb ββbperché è possibile che tu possa essere interessato a DV diversi per qualche motivo terribile e la mia memoria di Clogg et al. era che la loro formula utilizzava . Ricordo anche il controllo incrociato di questa formula contro Cohen, Cohen, West e Aiken, e la radice dello stesso pensiero può essere trovata lì nell'intervallo di confidenza delle differenze tra coefficienti, equazione 2.8.6, pag 46-47.β



Risposta fantastica! Una domanda di follow-up: questo vale anche per le combinazioni lineari di dal modello 1 e β 2 dal modello 2? Come, Z = A β 1 - B β 2β1β2
Z=Aβ1Bβ2(SEAβ1)2+(SEBβ2)2
Sibbs Gioco d'azzardo

1
Inoltre noto che il documento discute il caso in cui un modello è nidificato all'interno dell'altro e DV di due modelli è lo stesso. E se queste due condizioni non fossero soddisfatte? Invece, ho matrici di design dei due modelli uguali, ma hanno DV diversi. Questa formula si applica ancora? Molte grazie!
Sibbs Gambling,

1
@SibbsGambling: potresti fare una domanda a sé stante per attirare più attenzione.
Russellpierce,

β1β2

12

Per le persone con una domanda simile, lasciatemi fornire una semplice descrizione della risposta.

y1y2

(y1y2)=(X1  00  X2)(β1β2)+(e1e2)

Ciò porterà a una matrice di varianza-covarianza che consente di verificare l'uguaglianza dei due coefficienti.


11
Ho implementato il modo in cui hai suggerito e confrontato con il modo sopra. Ho trovato la differenza chiave se il presupposto che la varianza dell'errore è la stessa o no. A tuo modo, supponi che la varianza dell'errore sia la stessa e il modo sopra non lo assume.
KH Kim,

2
Questo ha funzionato bene per me. In Stata, ho fatto qualcosa del genere: l' expand =2, generate(indicator); generate y = cond(indicator, y2, y1); regress y i.indicator##c.X, vce(cluster id); uso di errori standard cluster tiene conto del fatto che e1 ed e2 non sono indipendenti per la stessa osservazione dopo aver impilato il set di dati.
wkschwartz,

1
  • Var(β1β2)=Var(β1)+Var(β2)

  • covar(β1,β2)0

  • (Clogg, CC, Petkova, E., & Haritou, A. (1995). Metodi statistici per confrontare i coefficienti di regressione tra modelli. American Journal of Sociology, 100 (5), 1261-1293.) Presenta una risposta nel caso speciale di equazioni nidificate (cioè per ottenere la seconda equazione, considerare la prima equazione e aggiungere alcune variabili esplicative) Dicono che sia facile da implementare.

  • Se lo capisco bene, in questo caso speciale, può essere implementato anche un test Haussman. La differenza chiave è che il loro test considera vera la seconda equazione (completa), mentre il test di Haussman considera vera la prima equazione.

  • Si noti che Clogg et al (1995) non sono adatti per i dati del panel. Ma il loro test è stato generalizzato da (Yan, J., Aseltine Jr, RH e Harel, O. (2013). Confronto dei coefficienti di regressione tra modelli lineari nidificati per dati raggruppati con equazioni di stima generalizzate. Journal of Educational and Behavioural Statistics, 38 (2), 172-189.) Con un pacchetto fornito in R: geepack Vedi: https://www.jstor.org/stable/pdf/41999419.pdf?refreqid=excelsior%3Aa0a3b20f2bc68223edb59e3254c234be&seq=1

E (per il pacchetto R): https://cran.r-project.org/web/packages/geepack/index.html

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.