La domanda suggerisce un confronto tra tre modelli correlati. Per chiarire il confronto, lascia che sia la variabile dipendente, che sia il codice comunità corrente e definisca e come indicatori delle comunità 1 e 2, rispettivamente. (Ciò significa che per la comunità 1 e per le comunità 2 e 3; per la comunità 2 e per le comunità 1 e 3.)YX∈{1,2,3}X1X2X1=1X1=0X2=1X2=0
L'attuale analisi può essere una delle seguenti:
Y=α+βX+ε(first model)
o
Y=α+β1X1+β2X2+ε(second model).
In entrambi i casi rappresenta un insieme di variabili casuali indipendenti identicamente distribuite con zero aspettative. Il secondo modello è probabilmente quello previsto, ma il primo è quello che si adatterà alla codifica descritta nella domanda.ε
L'output della regressione OLS è un insieme di parametri adattati (indicati con "cappelli" sui loro simboli) insieme a una stima della varianza comune degli errori. Nel primo modello c'è un t-test per confrontare con . Nel secondo modello ci sono due t-test: uno per confrontare con e un altro per confrontare con . Poiché la domanda riporta solo un test t, iniziamo esaminando il primo modello.β^0β1^0β2^0
Avendo concluso che è significativamente diverso da , possiamo fare una stima di = = per qualsiasi comunità:β^0YE[α+βX+ε]α+βX
per la comunità 1, e la stima è uguale a ;X=1α+β
per la comunità 2, e la stima è uguale a ; eX=2α+2β
per la comunità 3, e la stima è uguale a . X=3α+3β
In particolare, il primo modello costringe gli effetti della comunità ad essere in progressione aritmetica. Se il codice della comunità è inteso solo come un modo arbitrario di differenziazione tra le comunità, questa restrizione integrata è ugualmente arbitraria e probabilmente sbagliata.
È istruttivo eseguire la stessa analisi dettagliata delle previsioni del secondo modello:
Per la comunità 1, dove e , il valore previsto di uguale a . In particolare,X1=1X2=0Yα+β1
Y(community 1)=α+β1+ε.
Per la comunità 2, dove e , il valore previsto di uguale a . In particolare,X1=0X2=1Yα+β2
Y(community 2)=α+β2+ε.
Per la comunità 3, dove , il valore previsto di uguale a . In particolare,X1=X2=0Yα
Y(community 3)=α+ε.
I tre parametri offrono effettivamente al secondo modello la piena libertà di stimare i tre valori previsti di separatamente. Y I test t valutano se (1) ; cioè se c'è una differenza tra le comunità 1 e 3; e (2) ; vale a dire se c'è una differenza tra le comunità 2 e 3. Inoltre, si può testare il "contrasto" con un test t per vedere se le comunità 2 e 1 differiscono: questo funziona perché la loro differenza è = .β1=0β2=0β2−β1(α+β2)−(α+β1)β2−β1
Ora possiamo valutare l'effetto di tre regressioni separate. Vorrebbero essere
Y(community 1)=α1+ε1,
Y(community 2)=α2+ε2,
Y(community 3)=α3+ε3.
Confrontando questo con il secondo modello, vediamo che dovrebbe essere d'accordo con , dovrebbe essere d'accordo con e dovrebbe essere d'accordo con . Quindi, in termini di flessibilità dei parametri di adattamento, entrambi i modelli sono ugualmente buoni. Tuttavia, le ipotesi in questo modello sui termini di errore sono più deboli. Tutti i devono essere indipendenti e distribuiti in modo identico (iid); tutti i devono essere iid e tutti i devono essere iid, ma non si assume nulla riguardo alle relazioni statistiche tra le regressioni separate.α1α+β1α2α+β2α3αε1ε2ε3 Le regressioni separate consentono quindi un'ulteriore flessibilità:
Ancora più importante, la distribuzione di può differire da quella di che può differire da quella di .ε1ε2ε3
In alcune situazioni, può essere correlato a . Nessuno di questi modelli lo gestisce esplicitamente, ma almeno il terzo modello (regressioni separate) non ne sarà influenzato negativamente.εiεj
Questa flessibilità aggiuntiva significa che i risultati del test t per i parametri probabilmente differiranno tra il secondo e il terzo modello. (Tuttavia, non dovrebbe comportare stime di parametri differenti.)
Per vedere se sono necessarie regressioni separate , procedi come segue:
Montare il secondo modello. Traccia i residui contro la comunità, ad esempio come un insieme di grafici a scatole affiancate o un trio di istogrammi o anche come tre grafici di probabilità. Cerca prove di diverse forme distributive e soprattutto di varianze sensibilmente diverse. Se tale evidenza è assente, il secondo modello dovrebbe essere ok. Se è presente, sono garantite regressioni separate.
Quando i modelli sono multivariati, cioè includono altri fattori, è possibile un'analisi simile, con conclusioni simili (ma più complicate). In generale, eseguire regressioni separate equivale a includere tutte le possibili interazioni bidirezionali con la variabile di comunità (codificata come nel secondo modello, non il primo) e consentire diverse distribuzioni di errori per ciascuna comunità.