Devo eseguire regressioni separate per ogni comunità o la comunità può essere semplicemente una variabile di controllo in un modello aggregato?


11

Sto eseguendo un modello OLS con una variabile di indice di asset continua come DV. I miei dati sono aggregati da tre comunità simili in stretta vicinanza geografica tra loro. Nonostante ciò, ho pensato che fosse importante usare la community come variabile di controllo. A quanto pare, la comunità è significativa a livello dell'1% (punteggio t di -4,52). La comunità è una variabile nominale / categoriale codificata come 1,2,3 per 1 di 3 comunità diverse.

La mia domanda è se questo alto grado di significato significhi che dovrei fare regressioni sulle comunità individualmente piuttosto che come aggregazione. Altrimenti, l'utilizzo della community come variabile di controllo lo sta essenzialmente facendo?


Avrebbe senso usare un modello gerarchico con la comunità come effetto casuale? Le comunità non sono la tua principale preoccupazione, vero? Utilizzando un modello gerarchico, condividi la forza.
Wayne, il

Risposte:


14

La domanda suggerisce un confronto tra tre modelli correlati. Per chiarire il confronto, lascia che sia la variabile dipendente, che sia il codice comunità corrente e definisca e come indicatori delle comunità 1 e 2, rispettivamente. (Ciò significa che per la comunità 1 e per le comunità 2 e 3; per la comunità 2 e per le comunità 1 e 3.)YX{1,2,3}X1X2X1=1X1=0X2=1X2=0

L'attuale analisi può essere una delle seguenti:

Y=α+βX+ε(first model)

o

Y=α+β1X1+β2X2+ε(second model).

In entrambi i casi rappresenta un insieme di variabili casuali indipendenti identicamente distribuite con zero aspettative. Il secondo modello è probabilmente quello previsto, ma il primo è quello che si adatterà alla codifica descritta nella domanda.ε

L'output della regressione OLS è un insieme di parametri adattati (indicati con "cappelli" sui loro simboli) insieme a una stima della varianza comune degli errori. Nel primo modello c'è un t-test per confrontare con . Nel secondo modello ci sono due t-test: uno per confrontare con e un altro per confrontare con . Poiché la domanda riporta solo un test t, iniziamo esaminando il primo modello.β^0β1^0β2^0

Avendo concluso che è significativamente diverso da , possiamo fare una stima di = = per qualsiasi comunità:β^0YE[α+βX+ε]α+βX

per la comunità 1, e la stima è uguale a ;X=1α+β

per la comunità 2, e la stima è uguale a ; eX=2α+2β

per la comunità 3, e la stima è uguale a . X=3α+3β

In particolare, il primo modello costringe gli effetti della comunità ad essere in progressione aritmetica. Se il codice della comunità è inteso solo come un modo arbitrario di differenziazione tra le comunità, questa restrizione integrata è ugualmente arbitraria e probabilmente sbagliata.

È istruttivo eseguire la stessa analisi dettagliata delle previsioni del secondo modello:

Per la comunità 1, dove e , il valore previsto di uguale a . In particolare,X1=1X2=0Yα+β1

Y(community 1)=α+β1+ε.

Per la comunità 2, dove e , il valore previsto di uguale a . In particolare,X1=0X2=1Yα+β2

Y(community 2)=α+β2+ε.

Per la comunità 3, dove , il valore previsto di uguale a . In particolare,X1=X2=0Yα

Y(community 3)=α+ε.

I tre parametri offrono effettivamente al secondo modello la piena libertà di stimare i tre valori previsti di separatamente. Y I test t valutano se (1) ; cioè se c'è una differenza tra le comunità 1 e 3; e (2) ; vale a dire se c'è una differenza tra le comunità 2 e 3. Inoltre, si può testare il "contrasto" con un test t per vedere se le comunità 2 e 1 differiscono: questo funziona perché la loro differenza è = .β1=0β2=0β2β1(α+β2)(α+β1)β2β1

Ora possiamo valutare l'effetto di tre regressioni separate. Vorrebbero essere

Y(community 1)=α1+ε1,

Y(community 2)=α2+ε2,

Y(community 3)=α3+ε3.

Confrontando questo con il secondo modello, vediamo che dovrebbe essere d'accordo con , dovrebbe essere d'accordo con e dovrebbe essere d'accordo con . Quindi, in termini di flessibilità dei parametri di adattamento, entrambi i modelli sono ugualmente buoni. Tuttavia, le ipotesi in questo modello sui termini di errore sono più deboli. Tutti i devono essere indipendenti e distribuiti in modo identico (iid); tutti i devono essere iid e tutti i devono essere iid, ma non si assume nulla riguardo alle relazioni statistiche tra le regressioni separate.α1α+β1α2α+β2α3αε1ε2ε3 Le regressioni separate consentono quindi un'ulteriore flessibilità:

  • Ancora più importante, la distribuzione di può differire da quella di che può differire da quella di .ε1ε2ε3

  • In alcune situazioni, può essere correlato a . Nessuno di questi modelli lo gestisce esplicitamente, ma almeno il terzo modello (regressioni separate) non ne sarà influenzato negativamente.εiεj

Questa flessibilità aggiuntiva significa che i risultati del test t per i parametri probabilmente differiranno tra il secondo e il terzo modello. (Tuttavia, non dovrebbe comportare stime di parametri differenti.)

Per vedere se sono necessarie regressioni separate , procedi come segue:

Montare il secondo modello. Traccia i residui contro la comunità, ad esempio come un insieme di grafici a scatole affiancate o un trio di istogrammi o anche come tre grafici di probabilità. Cerca prove di diverse forme distributive e soprattutto di varianze sensibilmente diverse. Se tale evidenza è assente, il secondo modello dovrebbe essere ok. Se è presente, sono garantite regressioni separate.

Quando i modelli sono multivariati, cioè includono altri fattori, è possibile un'analisi simile, con conclusioni simili (ma più complicate). In generale, eseguire regressioni separate equivale a includere tutte le possibili interazioni bidirezionali con la variabile di comunità (codificata come nel secondo modello, non il primo) e consentire diverse distribuzioni di errori per ciascuna comunità.


-3
  • la selezione del modello (IMHO) inserisci qui la descrizione dell'immaginepuò essere raccomandata. Poiché i modelli complessi (pendenza separata) avranno la penalità più forte, quindi i modelli più concisi e più facili da interpretare saranno "migliori".

1
Non è del tutto chiaro cosa stai raccomandando qui o come questa tabella si collega ad esso.
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.