In che modo esattamente un "modello a effetti casuali" in econometria si collega a modelli misti al di fuori di econometria?


56

Pensavo che il "modello a effetti casuali" in econometria corrispondesse a un "modello misto con intercettazione casuale" al di fuori dell'econometria, ma ora non ne sono sicuro. Vero?

L'econometria usa termini come "effetti fissi" e "effetti casuali" in modo leggermente diverso dalla letteratura sui modelli misti, e questo provoca una nota confusione. Consideriamo una semplice situazione in cui dipende linearmente da ma con una diversa intercettazione in diversi gruppi di misure:yx

yit=βxit+ui+ϵit.

Qui ogni unità / gruppo viene osservato con diversi punti temporali . Gli econometrici lo chiamano "dati panel".it

  • Nella terminologia di modelli misti, possiamo considerare come un effetto fisso o come un effetto casuale (in questo caso, è intercettazione casuale). Considerarlo come fisso significa adattare e per ridurre al minimo l'errore al quadrato (ovvero eseguire la regressione OLS con variabili di gruppo fittizie). Considerarlo come casuale significa che supponiamo inoltre che e utilizziamo la massima verosimiglianza per adattarsi a e invece di adattare ogni per conto suo. Questo porta all'effetto "pool parziale", in cui le stime si verso la loro media .puiu i u i ~ N ( u 0 , σ 2 u ) u 0 σ 2 u u i u i u 0β^u^iuiN(u0,σu2)u0σu2uiu^iu^0

    R formula when treating group as fixed:    y ~ x + group
    R formula when treating group as random:   y ~ x + (1|group)
    
  • Nella terminologia econometrica, possiamo considerare l'intero modello come un modello a effetti fissi o come un modello a effetti casuali. La prima opzione è equivalente all'effetto fisso sopra (ma l'econometria ha il suo modo di stimare in questo caso, chiamato ). Pensavo che la seconda opzione fosse equivalente all'effetto casuale sopra; ad es. @JiebiaoWang nella sua risposta altamente votata a Qual è la differenza tra effetti casuali, effetti fissi e modello marginale? Dillo β"within" estimator

    In econometria, il modello a effetti casuali può riferirsi solo al modello di intercettazione casuale come nella biostatistica

Va bene --- proviamo se questa comprensione è corretta. Ecco alcuni dati casuali generati da @ChristophHanck nella sua risposta a Qual è la differenza tra modelli a effetto fisso, a effetto casuale e a effetti misti? (Ho messo i dati qui su pastebin per coloro che non usano R):

inserisci qui la descrizione dell'immagine

@Christoph fa due accoppiamenti usando approcci econometrici:

fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")

Il primo fornisce la stima di beta pari a -1.0451, il secondo 0.77031(sì, positivo!). Ho provato a riprodurlo con lme lmer:

l1 = lm(stackY ~ stackX + as.factor(unit), data = paneldata)
l2 = lmer(stackY ~ stackX + (1|as.factor(unit)), data = paneldata)

Il primo produce -1.045in perfetto accordo con lo stimatore interno sopra. Freddo. Ma il secondo produce -1.026, che è a miglia di distanza dallo stimatore degli effetti casuali. Eh? Cosa sta succedendo? In effetti, cosa sta facendoplm anche quando viene chiamato ?model = "random"

Qualunque cosa stia facendo, si può in qualche modo capirlo attraverso la prospettiva dei modelli misti?

E qual è l'intuizione dietro qualunque cosa stia facendo? Ho letto in un paio di posti di econometria che lo stimatore di effetti casuali è una media ponderata tra lo stimatore di effetti fissi e la "between" estimatorquale è più o meno la pendenza di regressione se non includiamo affatto l'identità di gruppo nel modello (questa stima è fortemente positiva in questo caso, intorno 4.) Ad esempio @Andy scrive qui :

Lo stimatore di effetti casuali utilizza quindi una media ponderata in matrice della variazione interna e tra i dati. [...] Questo rende gli effetti casuali più efficienti [.]

Perché? Perché dovremmo desiderare questa media ponderata? E in particolare, perché dovremmo volerlo invece di eseguire un modello misto?


8
Wow, oltre 20 voti e sei risposte illuminanti in meno di 24 ore, ma tutti si concentrano sul lato econometrico dei pensieri. Finora nessuna risposta stabilisce una connessione a modelli misti.
ameba dice di reintegrare Monica il


Risposte:


16

Riepilogo: il "modello a effetti casuali" in econometria e un "modello misto a intercettazione casuale" sono in effetti gli stessi modelli, ma sono stimati in modi diversi. Il modo econometrico consiste nell'utilizzare FGLS e il modo modello misto è usare ML. Esistono diversi algoritmi per eseguire FGLS e alcuni (in questo set di dati) producono risultati molto simili a ML.


1. Differenze tra i metodi di stima in plm

Risponderò con i miei test su plm(..., model = "random")e lmer(), utilizzando i dati generati da @ChristophHanck.

Secondo il manuale del pacchetto plm , ci sono quattro opzioni per random.method: il metodo di stima per i componenti di varianza nel modello di effetti casuali. @amoeba ha usato quello predefinito swar(Swamy e Arora, 1972).

Per i modelli di effetti casuali, sono disponibili quattro stimatori del parametro di trasformazione impostando random.method su uno di "swar" (Swamy and Arora (1972)) (impostazione predefinita), "amemiya" (Amemiya (1971)), "walhus" ( Wallace e Hussain (1969)) o "nerlove" (Nerlove (1971)).

Ho testato tutte e quattro le opzioni utilizzando gli stessi dati, ottenendo un erroreamemiya e tre stime del coefficiente totalmente diverse per la variabile stackX. Quelli dell'uso random.method='nerlove'e 'amemiya' sono quasi equivalenti a quelli di lmer(), -1.029 e -1.025 contro -1.026. Inoltre, non sono molto diversi da quelli ottenuti nel modello "effetti fissi", -1,045.

# "amemiya" only works using the most recent version:
# install.packages("plm", repos="http://R-Forge.R-project.org")

re0 <- plm(stackY~stackX, data = paneldata, model = "random") #random.method='swar'
re1 <- plm(stackY~stackX, data = paneldata, model = "random",  random.method='amemiya')
re2 <- plm(stackY~stackX, data = paneldata, model = "random",  random.method='walhus')
re3 <- plm(stackY~stackX, data = paneldata, model = "random",  random.method='nerlove')
l2  <- lmer(stackY~stackX+(1|as.factor(unit)), data = paneldata)

coef(re0)     #    (Intercept)   stackX    18.3458553   0.7703073 
coef(re1)     #    (Intercept)   stackX    30.217721   -1.025186 
coef(re2)     #    (Intercept)   stackX    -1.15584     3.71973 
coef(re3)     #    (Intercept)   stackX    30.243678   -1.029111 
fixef(l2)     #    (Intercept)   stackX    30.226295   -1.026482 

Purtroppo non ho tempo in questo momento, ma i lettori interessati possono trovare i quattro riferimenti, per verificare le loro procedure di stima. Sarebbe molto utile capire perché fanno una tale differenza. Mi aspetto che in alcuni casi, la plmprocedura di stima utilizzando i lm()dati trasformati dovrebbe essere equivalente alla procedura di massima verosimiglianza utilizzata in lmer().

2. Confronto tra GLS e ML

Gli autori del plmpacchetto hanno confrontato i due nella Sezione 7 del loro articolo: Yves Croissant e Giovanni Millo, 2008, Panel Data Econometrics in R: Il pacchetto plm .

L'econometria si occupa principalmente di dati non sperimentali. Grande enfasi è posta sulle procedure di specifica e sui test di errata specificazione. Le specifiche del modello tendono quindi ad essere molto semplici, mentre viene posta grande attenzione alle problematiche di endogeneità dei regressori, strutture di dipendenza negli errori e robustezza degli stimatori in deroga alla normalità. L'approccio preferito è spesso semi o non parametrico e le tecniche coerenti con l'eteroschedasticità stanno diventando una pratica standard sia nella stima che nei test.

Per tutti questi motivi, la stima del modello di [...] panel in econometria viene per lo più realizzata nel quadro dei minimi quadrati generalizzati basato sul Teorema di Aitken [...]. Al contrario, i modelli di dati longitudinali nella nlmee lme4sono stimati dalla massima (limitata o illimitata) probabilità. [...]

L'approccio econometrico GLS ha soluzioni analitiche in forma chiusa calcolabili con l'algebra lineare standard e, sebbene quest'ultima possa a volte diventare pesante dal punto di vista computazionale sulla macchina, le espressioni per gli stimatori sono generalmente piuttosto semplici. La stima ML dei modelli longitudinali, al contrario, si basa sull'ottimizzazione numerica di funzioni non lineari senza soluzioni in forma chiusa e dipende quindi da approssimazioni e criteri di convergenza.


3. Aggiornamento su modelli misti

Apprezzo che @ChristophHanck abbia fornito un'introduzione approfondita sui quattro random.methodutilizzati plme abbia spiegato perché le loro stime sono così diverse. Come richiesto da @amoeba, aggiungerò alcune riflessioni sui modelli misti (basati sulla verosimiglianza) e sulla sua connessione con GLS.

Il metodo basato sulla verosimiglianza di solito presuppone una distribuzione sia per l'effetto casuale sia per il termine di errore. Un assunto di distribuzione normale è comunemente usato, ma ci sono anche alcuni studi che ipotizzano una distribuzione non normale. Seguirò le notazioni di @ ChristophHanck per un modello di intercettazione casuale e consentirò dati sbilanciati, cioè lasciamo .T=ni

Il modello è con .

yit=xitβ+ηi+ϵiti=1,,m,t=1,,ni
ηiN(0,ση2),ϵitN(0,σϵ2)

Per ogni , Quindi la funzione di verosimiglianza logico èi

yiN(Xiβ,Σi),Σi=ση21ni1ni+σϵ2Ini.
const12ilog|Σi|12i(yiXiβ)Σi1(yiXiβ).

Quando sono note tutte le varianze, come mostrato in Laird e Ware (1982), l'MLE è che è equivalente al GLS derivato da @ChristophHanck. Quindi la differenza chiave sta nella stima delle varianze. Dato che non esiste una soluzione a forma chiusa, esistono diversi approcci:

β^=(iXiΣi1Xi)1(iXiΣi1yi),
β^RE
  • massimizzazione diretta della funzione log-verosimiglianza mediante algoritmi di ottimizzazione;
  • Algoritmo Expectation-Maximization (EM): esistono soluzioni in forma chiusa, ma lo stimatore per prevede stime bayesiane empiriche dell'intercetta casuale;β
  • una combinazione dei due precedenti algoritmo ECME (Expectation / Conditional Maximization Either) (Schafer, 1998; pacchetto R lmm). Con una diversa parametrizzazione, esistono soluzioni in formato chiuso per (come sopra) e . La soluzione per può essere scritta come dove è definito come e può essere stimato in un framework EM.βσϵ2σϵ2
    σϵ2=1inii(yiXiβ^)(ξ^1ni1ni+Ini)1(yiXiβ^),
    ξση2/σϵ2

In breve, MLE ha ipotesi di distribuzione ed è stimato in un algoritmo iterativo. La differenza chiave tra MLE e GLS sta nella stima delle varianze.

Croissant e Millo (2008) lo hanno sottolineato

Mentre sotto normalità, l'omoschedasticità e nessuna correlazione seriale degli errori OLS sono anche gli stimatori della massima verosimiglianza, in tutti gli altri casi ci sono differenze importanti.

A mio avviso, per l'assunto di distribuzione, proprio come la differenza tra approcci parametrici e non parametrici, MLE sarebbe più efficiente quando l'ipotesi regge, mentre GLS sarebbe più robusto.


Sospetterei che il problema con il messaggio di errore sia in qualche modo correlato a me che genera le variabili come vettori? Forse plm preferisce che i dati vengano archiviati in modo diverso?
Christoph Hanck,

1
nerlovefunziona bene qui, ma non è implementato per i pannelli non bilanciati, come ho scoperto cancellando 1 osservazione dall'ultimo pannello e cercando di eseguire tutti i metodi.
ameba dice di reintegrare Monica il

2
@ChristophHanck @amoeba Mi viene in mente l' plmerrore random.method="amemiya"che probabilmente dovrebbero usare X[, -1, drop=FALSE]invece di X[, -1]conservare il formato matrice di X[, -1]quando c'è solo una covariata nel modello. Comunque, ho provato a superare questo aggiungendo una variabile normale standard alla formula. amemiyariproduce il risultato con una stima di -1,02 e funziona anche con dati non bilanciati.
Randel,

3
@ jiebiao-wang @ChristophHanck @amoeba l'attuale versione di sviluppo di plm funziona bene con random.method="amemiya": var std.dev share idiosyncratic 0.6360 0.7975 0.002 individuo 313.6510 17.7102 0.998 theta: 0.9841
Helix123

1
Ciao @JiebiaoWang. Ho pensato che dopo l'aggiornamento, la tua risposta risponde alla mia domanda in modo soddisfacente. Mi sono preso la libertà di apportare alcune modifiche e di inserire un aggiornamento amemiyae un preventivo su ML vs GLS. Lo segnerò come accettato e lo assegnerò un premio. Saluti.
ameba dice Ripristina Monica il

17

Questa risposta non commenta modelli misti, ma posso spiegare cosa fa lo stimatore di effetti casuali e perché si rovina su quel grafico.

Riepilogo: lo stimatore di effetti casuali assume , che non è vero in questo esempio.E[uix]=0


Cosa sta facendo lo stimatore di effetti casuali?

Supponiamo di avere il modello:

yit=βxit+ui+ϵit

Abbiamo due dimensioni di variazione: gruppi e tempo . Per stimare potremmo:itβ

  1. Utilizzare solo la variazione delle serie temporali all'interno di un gruppo. Questo è ciò che fa lo stimatore ad effetto fisso (ed è per questo che spesso viene anche chiamato stimatore interno).
  2. Se è casuale, potremmo usare solo la variazione in sezione trasversale tra i mezzi delle serie temporali dei gruppi. Questo è noto come lo stimatore tra .ui

    In particolare, per ciascun gruppo , prendere la media nel tempo del modello di dati del pannello sopra riportato per ottenere:i

    y¯i=βx¯i+vi where vi=ui+ϵ¯i

    Se eseguiamo questa regressione, otteniamo lo stimatore tra. Osserva che è uno stimatore coerente se gli effetti sono rumore bianco casuale, non correlato con ! In questo caso, non è efficace lanciare completamente la variazione tra i gruppi (come facciamo con lo stimatore degli effetti fissi).uix

Lo stimatore di effetti casuali di econometria combina (1) all'interno dello stimatore (ovvero lo stimatore di effetti fissi) e (2) lo stimatore tra gli strumenti in modo da massimizzare l'efficienza. È un'applicazione di minimi quadrati generalizzati e l'idea di base è la ponderazione inversa della varianza . Per massimizzare l'efficienza, lo stimatore di effetti casuali calcola come media ponderata dello stimatore interno e dello stimatore intermedio.β^

Cosa sta succedendo in quel grafico ...

Basta osservare il grafico per vedere chiaramente cosa sta succedendo:

  • All'interno di ciascun gruppo (ovvero punti dello stesso colore), un più alto è associato a un inferioreixityit
  • Un gruppo con un più alto ha un più .ix¯iui

L'effetto casuale presuppone che sia chiaramente soddisfatto. Gli effetti di gruppo non sono ortogonali a (in senso statistico), piuttosto, gli effetti di gruppo hanno una chiara relazione positiva con .E[uix]=0uixx

Lo stimatore tra presuppone . Lo stimatore tra dice "sicuro di poter imporre , rendendo positivo!"E[uix]=0E[uix]=0ββ^

Quindi, a sua volta, lo stimatore di effetti casuali è disattivato perché è una media ponderata dello stimatore interno e dello stimatore tra.


+1, grazie Matteo. Non sono sicuro del motivo per cui qualcuno ha votato in negativo la tua risposta. Sto cercando una risposta che stabilisca la connessione con modelli misti, quindi non accetterò la tua, ma trovo comunque utile per questa discussione. Se è possibile espandere un po 'il modo in cui GLS e la ponderazione della varianza inversa vengono applicati e calcolati qui, sarebbe molto utile.
ameba dice di reintegrare Monica il

16

In questa risposta, vorrei approfondire un po 'la risposta +1 di Matthew sulla prospettiva GLS su ciò che la letteratura di econometria chiama lo stimatore degli effetti casuali.

Prospettiva GLS

Considera il modello lineare Se sostenesse che potremmo semplicemente stimare il modello da OLS in pool , il che equivale a ignorare la struttura dei dati del pannello e raggruppare semplicemente tutte le osservazioni insieme .

yit=α+Xitβ+uiti=1,,m,t=1,,T
E(uit|Xit)=0n=mT

Modelliamo la utilizzando il modello di errore componentiuit

uit=ηi+ϵit

Nella notazione matriciale, il modello può essere scritto come dove e sono -vettori con tipico elementi e e è una matrice (una colonna per unità) di variabili fittizie. è tale che se una riga corrisponde a un'osservazione appartenente all'unità , allora ha uno nella colonna e 0 altro, .

y=αιmT+Xβ+Dη+ϵ
yϵnyitϵitDn×mDiDii=1,,m

Supponiamo inoltre che

E(ϵϵ)=σϵ2I

Gli effetti specifici dell'individuo devono essere indipendenti da . Lo stimatore di effetti casuali, a differenza di quello degli effetti fissi (di nuovo, terminologia di econometria), tuttavia richiede inoltre l'assunto più forte che Sotto questa ipotesi, raggruppata OLS sarebbe imparziale, ma possiamo derivare uno stimatore GLS. Supponiamo che sia IID con zero medio e varianza .ηϵit

E(ηi|X)=0
ηiση2

Questa ipotesi spiega il termine effetti casuali . Supponendo inoltre che i due componenti dell'errore siano indipendenti, è facile vedere che

Var(uit)=ση2+σϵ2Cov(uit,uis)=ση2Cov(uit,ujs)=0for all ij

Otteniamo quindi la seguente matrice di varianza-covarianza : Qui, con un -vector di quelli. Possiamo quindi scrivere per lo stimatore GLS abbiamo bisogno di . A tal fine, lascia che ,n×nΩ

Ω=(ΣOOOΣOOOΣ)
Σ=ση2ιι+σϵ2IT
ιT
Ω=ση2(Imιι)+σϵ2(ImIT)
β^RE=(XΩ1X)1XΩ1y
Ω1JT=ιιJ¯T=JT/TET=ITJ¯T . Quindi, scrivi o , raccogliendo termini con le stesse matrici, Idempotenza di e ci consente quindi di mostrare che dove .
Ω=Tση2(ImJ¯T)+σϵ2(ImET)+σϵ2(ImJ¯T)
Ω=(Tση2+σϵ2)(ImJ¯T)+σϵ2(ImET)
P=ImJ¯TQ=ImET
Ω1=1σ12P+1σϵ2Q=ση2σ12σϵ2(Imιι)+1σϵ2(ImIT),
σ12=Tση2+σϵ2

La logica di Gauss-Markov spiega quindi perché lo stimatore degli effetti casuali può essere utile, in quanto è uno stimatore più efficiente rispetto agli OLS raggruppati o agli effetti fissi sotto i presupposti dati (forniti, che è molto grande se in molte applicazioni di dati del pannello, che il sono effettivamente non correlati con i regressori). In breve, GLS è più efficiente perché la matrice di covarianza degli errori non è omoschedastica in questo modello.ηi

Si può dimostrare che la stima GLS può essere ottenuta eseguendo OLS sui dati parzialmente sminuiti: dove . Per si ottiene lo stimatore dell'effetto fisso ("entro"). Per si ottiene lo stimatore "tra". Lo stimatore GLS è una media ponderata tra i due. (Per si ottiene lo stimatore OLS in pool.)

(yitθy¯i)=(XitθX¯i)β+(uitθui),
θ=1ση/σ1θ=1θθ=0

GLS fattibile

Per rendere pratico un approccio FGLS, abbiamo bisogno di stimatori di e . Baltagi, Analisi econometrica dei dati del panel, p. 16 (citando dalla terza edizione), vengono descritte le seguenti opzioni su come procedere.σ12σϵ2

Supponiamo che prima osserviamo . Poi,uit

σ^12=T1mi=1mu¯i2
e sarebbero buoni stimatori dei loro parametri, con la media temporale corrispondente alle osservazioni dell'unità .
σ^ϵ2=1m(T1)i=1mt=1T(uit1mi=1mu¯i)2
u¯ii

Il (1969) Wallace e Hussein approccio consiste nel sostituire con residui di una regressione OLS pooled (che, dopo tutto, è ancora imparziale e coerente nelle attuali ipotesi).u

L' approccio di Amemiya (1971) suggerisce invece l'uso di residui di FE (o LSDV). Come questione computazionale, imponiamo la limitazione che per aggirare la trappola variabile fittizia in modo da poter ottenere con denota grandi medie oltre e per i residui LSDV .iηi=0α^=y¯X¯β^FEitu^=yα^Xβ^FE

L' approccio predefinito di Swamy e Arora (1972) stima e Qui, .

σ^ϵ2=[yQ(IX(XQX)1XQ)y]/[m(T1)K]
σ^12=[yP(IZ(ZPX)1ZP)y]/[mK1]
Z=(ιmTX)

L' approccio di Nerlove (1971) stima da dove il sono manichini da una regressione ad effetti fissi e è stimato dalle somme residue interne dei quadrati di questa regressione, con nel denominatore.ση2i=1m(η^iη^¯)2/(m1)η^iσ^ϵ2mT

Sono anche molto sorpreso che questi facciano una differenza così grande, come dimostrato dai calcoli di Randel!

MODIFICARE:

Per quanto riguarda le differenze, le stime dei componenti dell'errore possono essere recuperate nel plmpacchetto, e in effetti restituiscono risultati notevolmente diversi, spiegando la differenza nelle stime puntuali per (secondo la risposta di @ Randel, genera un errore che non ho tentato di fix):βamemiya

> ercomp(stackY~stackX, data = paneldata, method = "walhus")
                  var std.dev share
idiosyncratic 21.0726  4.5905 0.981
individual     0.4071  0.6380 0.019
theta:  0.06933  
> ercomp(stackY~stackX, data = paneldata, method = "swar")
                 var std.dev share
idiosyncratic 0.6437  0.8023 0.229
individual    2.1732  1.4742 0.771
theta:  0.811  
> ercomp(stackY~stackX, data = paneldata, method = "nerlove")
                   var  std.dev share
idiosyncratic   0.5565   0.7460 0.002
individual    342.2514  18.5000 0.998
theta:  0.9857  

Ho il sospetto che anche gli stimatori delle componenti dell'errore non siano coerenti nel mio esempio nel thread gemello in cui intendo dimostrare le differenze tra FE e RE utilizzando i dati in cui i singoli effetti e sono correlati. (In effetti, non possono esserlo, perché alla fine scacciano la stima RE dalla stima FE in base al fatto che RE è una media ponderata di FE e tra stima con pesi determinati dalle stime della componente di errore. Quindi, se RE non lo è coerente, che alla fine deve essere dovuto a queste stime.)X

Se sostituisci la funzione "offensiva" di quell'esempio,

alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))

semplicemente, diciamo,

alpha = runif(n)

così effetti casuali che non sono correlati con , si ottengono stime del punto RE per molto vicine al valore reale per tutte le varianti di stima dei componenti dell'errore.Xββ=1


Riferimenti

Amemiya, T., 1971, La stima delle varianze in un modello di componenti di varianza , International Economic Review 12, 1–13.

Baltagi, BH, Analisi econometrica dei dati del panel, Wiley.

Nerlove, M., 1971a, Ulteriori prove sulla stima delle relazioni economiche dinamiche da una serie temporale di sezioni trasversali , Econometrica 39, 359–382.

Swamy, PAVB e SS Arora, 1972, Le proprietà esatte del campione finito degli stimatori dei coefficienti nei modelli di regressione dei componenti dell'errore , Econometrica 40, 261–275.

Wallace, TD e A. Hussain, 1969, L'uso di modelli di componenti di errore nella combinazione di dati di sezioni trasversali e serie temporali , Econometrica 37, 55–72.


4
+1. Grazie Christoph, questo è utile e sono felice di vedere finalmente alcuni dettagli matematici in questo thread. Sarebbe bello cercare come funzionano i quattro metodi implementati plmed elencati da Randel e aggiornare la tua risposta con alcuni commenti a riguardo. Se non le descrizioni dettagliate, almeno alcune brevi note su ciò che sta succedendo. Pensi che saresti in grado di cercarlo? Sono felice di offrire una taglia per questo :-) Il mio approccio ingenuo sarebbe quello di stimare entrambi i sigmi dalla soluzione di effetti fissi. Corrisponde a uno dei metodi "nominati"?
ameba dice di reintegrare Monica il

@amoeba, ho incluso alcuni commenti su come stimare le varianze nel modello di componente dell'errore. Il tuo suggerimento sembra quindi essere strettamente correlato a quello di Amemiya.
Christoph Hanck,

Molto bene, grazie. Nerlove non sta usando anche la regressione con i manichini? In realtà, non capisco bene qual è la differenza tra Amemiya e Nerlove. Il mio suggerimento "ingenuo" era di adattare la regressione fittizia, usare la varianza residua come stima di e usare la varianza dei coefficienti fittizi come stima di . Sembra che sia quello che sta facendo Nerlove. Non sono sicuro di capire cosa sta facendo Amemiya e come sia diverso. (E sono d'accordo sul fatto che l'enorme domanda troppo dolorosa rimanga sul motivo per cui questi metodi producono una tale differenza in questo caso.)σϵση
ameba dice Reinstate Monica il

Sì, entrambi usano la regressione con i manichini. Per quanto ho capito, una differenza tra Amemiya e Nerlove è il denominatore per i gradi di correzione della libertà. Un altro è che non sono sicuro che la varianza dei coefficienti fittizi stimati sia la stessa della varianza dei residui. Un altro aspetto cruciale è che Nerlove mira direttamente a stimare , mentre dovresti eseguire il back-out della stima tramite per gli altri tre e uno svantaggio noto di questi è che non vi è alcuna garanzia che non siano negativi. ( σ 2 1 - σ 2 ε ) / Tση2(σ^12σ^ϵ2)/T
Christoph Hanck,

1
Grazie. Ho apportato una modifica per fornire una formula più esplicita per , potresti voler ricontrollare (ma penso che sia corretto). Ho lanciato una taglia che assegnerò alla tua risposta. Tuttavia, sto ancora cercando una risposta che stabilisca una connessione con modelli misti, contrapponga GLS a MLE e spieghi perché e quando si dovrebbe preferire quale approccio (nessuna delle risposte attuali lo fa, quindi al momento non esiste una risposta che vorrei spunta come "accettato"). È interessante notare che MLE (come implementato da ) produce stime di varianza molto simili a quelle di Nerlove. Ω1lmer
ameba dice che ripristini Monica il

11

Non ho abbastanza familiarità con R per commentare il tuo codice, ma il modello misto di intercettazione casuale semplice dovrebbe essere identico allo stimatore RE MLE e molto vicino allo stimatore RE GLS, tranne quando il totale è piccolo e i dati sono sbilanciati. Speriamo che questo sia utile nella diagnosi del problema. Ovviamente, tutto questo presuppone che lo stimatore RE sia appropriato.N=iTi

Ecco alcuni Stata che mostrano l'equivalenza (richiede esttabe eststoda SSC):

set more off
estimates clear
webuse nlswork, clear
eststo, title(mixed): mixed ln_w grade age c.age#c.age ttl_exp tenure c.tenure#c.tenure || id: // Mixed estimator
eststo, title(MLE): xtreg ln_w grade age c.age#c.age ttl_exp tenure c.tenure#c.tenure, i(id) mle // MLE RE estimator 
eststo, title(GLS): xtreg ln_w grade age c.age#c.age ttl_exp tenure c.tenure#c.tenure, i(id) re // GLS RE estimato
esttab *, b(a5) se(a5) mtitle 

Ecco l'output dell'ultima riga:

. esttab *, b(a5) se(a5) mtitle 

------------------------------------------------------------
                      (1)             (2)             (3)   
                    mixed             MLE             GLS   
------------------------------------------------------------
main                                                        
grade            0.070790***     0.070790***     0.070760***
              (0.0017957)     (0.0017957)     (0.0018336)   

age              0.031844***     0.031844***     0.031906***
              (0.0027201)     (0.0027202)     (0.0027146)   

c.age#c.age   -0.00065130***  -0.00065130***  -0.00065295***
             (0.000044965)    (0.000044971)    (0.000044880)   

ttl_exp          0.035228***     0.035228***     0.035334***
              (0.0011382)     (0.0011392)     (0.0011446)   

tenure           0.037134***     0.037134***     0.037019***
              (0.0015715)     (0.0015723)     (0.0015681)   

c.tenure#c~e   -0.0018382***   -0.0018382***   -0.0018387***
             (0.00010128)    (0.00010128)    (0.00010108)   

_cons             0.14721***      0.14721***      0.14691** 
               (0.044725)      (0.044725)      (0.044928)   
------------------------------------------------------------
lns1_1_1                                                    
_cons            -1.31847***                                
               (0.013546)                                   
------------------------------------------------------------
lnsig_e                                                     
_cons            -1.23024***                                
              (0.0046256)                                   
------------------------------------------------------------
sigma_u                                                     
_cons                             0.26754***                
                              (0.0036240)                   
------------------------------------------------------------
sigma_e                                                     
_cons                             0.29222***                
                              (0.0013517)                   
------------------------------------------------------------
N                   28099           28099           28099   
------------------------------------------------------------
Standard errors in parentheses
* p<0.05, ** p<0.01, *** p<0.001

Nei tuoi dati, i presupposti per l'utilizzo dello stimatore RE non sono soddisfatti poiché l'effetto di gruppo è chiaramente correlato a x, quindi ottieni stime molto diverse. Lo stimatore GLS RE è in realtà uno stimatore del metodo generalizzato dei momenti (GMM) che è una media ponderata in matrice tra gli stimatori tra e all'interno. Lo stimatore interno sarà OK qui, ma il mezzo sarà profondamente avvitato, mostrando grandi effetti positivi di X. Quindi GLS sarà principalmente lo stimatore tra. Il MLE RE è un MLE che massimizza la probabilità del modello a effetti casuali. Non ci si aspetta più che producano la stessa risposta. Qui lo stimatore misto sta dando qualcosa di molto vicino allo stimatore "entro" FE:

. esttab *, b(a5) se(a5) mtitle 

----------------------------------------------------------------------------
                      (1)             (2)             (3)             (4)   
                    mixed             GLS             MLE          Within   
----------------------------------------------------------------------------
main                                                                        
x                -1.02502***      0.77031**       3.37983***     -1.04507***
               (0.092425)       (0.26346)       (0.20635)      (0.093136)   

_cons             30.2166***      18.3459***      0.49507         30.3492***
                (5.12978)       (2.31566)             (.)       (0.62124)   
----------------------------------------------------------------------------
lns1_1_1                                                                    
_cons             2.87024***                                                
                (0.20498)                                                   
----------------------------------------------------------------------------
lnsig_e                                                                     
_cons            -0.22598**                                                 
               (0.077195)                                                   
----------------------------------------------------------------------------
sigma_u                                                                     
_cons                                             2.40363                   
                                                (1.28929)                   
----------------------------------------------------------------------------
sigma_e                                                                     
_cons                                             4.23472***                
                                                (0.37819)                   
----------------------------------------------------------------------------
N                      96              96              96              96   
----------------------------------------------------------------------------
Standard errors in parentheses
* p<0.05, ** p<0.01, *** p<0.001

Ecco il codice Stata per la tabella sopra:

clear
set more off
estimates clear

input int(obs id t) double(y x)
1      1           1  2.669271  0.5866982
2      1           2  1.475540  1.3500454
3      1           3  4.430008  0.6830919
4      1           4  2.162789  0.5845966
5      1           5  2.678108  1.0038879
6      1           6  3.456636  0.5863289
7      1           7  1.769204  2.3375403
8      1           8  3.413790  0.9640034
9      2           1  4.017493  1.5084121
10     2           2  4.218733  2.8982499
11     2           3  4.509530  3.2141335
12     2           4  6.106228  2.0317799
13     2           5  5.161379  2.1231733
14     2           6  2.724643  4.3369017
15     2           7  4.500306  1.9141065
16     2           8  4.119322  2.8667938
17     3           1  9.987779  2.3961969
18     3           2  7.768579  3.5509275
19     3           3  9.379788  3.3284869
20     3           4 10.035937  2.2997389
21     3           5 11.752360  2.8143474
22     3           6  9.500264  2.1825704
23     3           7  8.921687  5.0126462
24     3           8  8.269932  3.4046339
25     4           1 12.101253  3.2928033
26     4           2 11.482337  3.1645218
27     4           3 10.648010  4.8073987
28     4           4  9.687320  5.3394193
29     4           5 12.796925  3.1197431
30     4           6  9.971434  4.6512983
31     4           7 10.239717  4.7709378
32     4           8 12.245207  2.7952426
33     5           1 18.473320  5.8421967
34     5           2 19.097212  4.9425391
35     5           3 19.460495  4.9166172
36     5           4 18.642305  4.9856035
37     5           5 17.723912  5.0594425
38     5           6 16.783248  4.8615618
39     5           7 16.100984  6.2069167
40     5           8 18.851351  3.8856152
41     6           1 19.683171  7.5568816
42     6           2 21.104231  6.7441900
43     6           3 22.115529  6.4486514
44     6           4 22.061362  5.3727434
45     6           5 22.457905  5.8665798
46     6           6 21.424413  6.0578997
47     6           7 23.475946  4.4024323
48     6           8 24.884950  4.1596914
49     7           1 25.809011  7.6756255
50     7           2 25.432828  7.7910756
51     7           3 26.790387  7.3858301
52     7           4 24.640850  8.2090606
53     7           5 26.050086  7.3779219
54     7           6 25.297148  6.8098617
55     7           7 26.551229  7.6694272
56     7           8 26.669760  6.4425772
57     8           1 26.409669  8.3040894
58     8           2 26.570003  8.4686087
59     8           3 29.018818  7.2476785
60     8           4 30.342613  4.5207729
61     8           5 26.819959  8.7935557
62     8           6 27.147711  8.3141224
63     8           7 26.168568  9.0148308
64     8           8 27.653552  8.2081808
65     9           1 34.120485  7.8415520
66     9           2 31.286463  9.7234259
67     9           3 35.763403  6.9202442
68     9           4 31.974599  9.0078286
69     9           5 32.273719  9.4954288
70     9           6 29.666208 10.2525763
71     9           7 30.949857  9.4751679
72     9           8 33.485967  8.1824810
73    10           1 36.183128 10.7891587
74    10           2 37.706116  9.7119548
75    10           3 38.582725  8.6388290
76    10           4 35.876781 10.8259279
77    10           5 37.111179  9.9805046
78    10           6 40.313149  7.7487456
79    10           7 38.606329 10.2891107
80    10           8 37.041938 10.3568765
81    11           1 42.617586 12.1619185
82    11           2 41.787495 11.1420338
83    11           3 43.944968 11.1898730
84    11           4 43.446467 10.8099599
85    11           5 43.420819 11.2696770
86    11           6 42.367318 11.6183869
87    11           7 43.543785 11.1336555
88    11           8 43.750271 12.0311065
89    12           1 46.122429 12.3528733
90    12           2 47.604306 11.4522787
91    12           3 45.568748 13.6906476
92    12           4 48.331177 12.3561907
93    12           5 47.143246 11.7339915
94    12           6 44.461190 13.3898768
95    12           7 46.879044 11.4054972
96    12           8 46.314055 12.3143487
end

eststo, title(mixed): mixed y x || id:, mle // Mixed estimator
eststo, title(GLS): xtreg y x, i(id) re     // GLS RE estimato
eststo, title(MLE): xtreg y x, i(id) mle    // MLE RE estimator 
eststo, title(Within): xtreg y x, i(id) fe  // FE Within estimator 
eststo, title(Between): xtreg y x, i(id) be // Between estimator 

esttab *, b(a5) se(a5) mtitle 

+1. Grazie, Dimitriy, è sicuramente utile vedere l'output di Stata sullo stesso set di dati giocattolo. Ho una domanda sullo stimatore MLE. Ho pensato che l'approccio del modello misto ( mixedin Stata e lmerin R) fosse anche la massima verosimiglianza o talvolta "verosimiglianza massima limitata" (posso usare entrambi nella mia lmerchiamata impostando REML=To REML=Fe danno risultati quasi identici). Tuttavia, l'approccio del modello misto dà un risultato molto sensato e corretto, mentre ciò che Stat chiama "MLE" dà un risultato senza senso in questo caso. Qual è la differenza? A cosa si riferisce esattamente "MLE" di Stat?
ameba dice di reintegrare Monica il

2
@amoeba Entrambi mixed, mlee xtreg, mlesono stimatori MLE, ma le funzioni di probabilità sono leggermente diverse. Vedi qui per il primo e qui per il secondo. Non capisco bene perché il mixedmodello sia così robusto.
Dimitriy V. Masterov

xtmix è ciò che è stato chiamato mix nelle versioni precedenti di Stata. Per i tuoi dati, tale equivalenza chiaramente non regge, mentre vale per i miei dati, come suggerisce il manuale.
Dimitriy V. Masterov,

ssc install estoutAnche se il mio ricordo è che aveva funzionalità diverse in versioni diverse e non era compatibile con le versioni precedenti.
StasK

1
@StasK mi ha messo in contatto con il supporto tecnico di Stata e hanno detto che probabilmente è un bug xtreg, mle. "In generale il risultato dovrebbe essere lo stesso [...]. Questo tipo di differenze si presentano normalmente quando ci sono problemi di identificazione nella stima dei parametri del modello. [...] In realtà ho verificato il numero di condizione per la varianza -covarianza matrice risultante da entrambi i calcoli e quel numero è sostanzialmente infinito per -xtreg, mle- e oltre 4000 per -mix, mle-. [...] gli sviluppatori [...] valuteranno il problema per determinare se è necessario un codice fisso. "
ameba dice di reintegrare Monica l'

9

Permettetemi di confondere le cose ancora di più:

ECONOMETRIA - APPROCCIO DI EFFETTI FISSI
L'approccio "effetti fissi" in econometria per i dati del pannello, è un modo per stimare i coefficienti di pendenza (i beta), "aggirando" l'esistenza della variabile di singoli effetti , e quindi non fare ipotesi sul fatto che sia "fisso" o "casuale". Questo è ciò che fanno lo stimatore "Prima differenza" (usando le prime differenze dei dati) e lo stimatore "All'interno" (usando le deviazioni dalle medie temporali): riescono a stimare solo i beta.αi

Per un approccio più tradizionale che tratta esplicitamente i singoli effetti (le "intercettazioni") come costanti, utilizziamo lo stimatore di variabili fittizie Least Squares (LSDV), che fornisce anche stime per la nota di : nel modello lineare il tre stimatori algebricamente coincidono per quanto riguarda le stime prodotte per i beta - ma solo nel modello lineare.αi

Discussione (estratto in parte dalle note della lezione)

"Il vantaggio principale dell'approccio agli effetti fissi è che non è necessario formulare ipotesi sulla natura dei singoli effetti. Dovremmo applicarlo ogniqualvolta sospettiamo che questi siano correlati con uno o più regressori poiché in questo caso ignorare la presenza di tale correlazione e applicare ingenuamente l'OLS sul modello aggregato produce stimatori incoerenti. Nonostante il suo appello sulla base delle ipotesi minime che dobbiamo fare in merito ai singoli effetti, l'approccio degli effetti fissi presenta alcune limitazioni. Innanzitutto, i coefficienti di tempo i regressori invarianti non possono essere stimati poiché queste variabili sono differenziate insieme agli effetti individuali non osservabili.i singoli effetti (nel caso in cui utilizziamo lo stimatore LSDV) non possono essere stimati in modo coerente (tranne se lasciamo andare la dimensione temporale all'infinito). "

ECONOMETRIA - APPROCCIO DI EFFETTI CASUALI
Nell'approccio "tradizionale" di effetti casuali econometrici ipotizziamo che i singoli "intercetti" siano "componenti casuali permanenti", mentre i termini "normali" di errore sono componenti di errore "transitori".αi

In un'estensione interessante, la casualità aggiuntiva deriva dall'esistenza di un effetto temporale casuale , comune a tutte le sezioni trasversali ma che varia nel tempo , insieme a un effetto individuale (costante) fisso e al termine dell'errore. Questo "effetto temporale", ad esempio, può rappresentare uno shock aggregato a livello di economia che colpisce ugualmente tutte le famiglie. Tali disturbi aggregati sono effettivamente osservati e quindi sembra essere una scelta modellistica realistica.

Qui lo stimatore "Effetti casuali" è uno stimatore dei minimi quadrati generalizzati (GLS), per una maggiore efficienza.

Ora, un altro stimatore concepito, lo stimatore "Between", esegue OLS sulle osservazioni medie nel tempo. Per quanto riguarda l'algebra è stato dimostrato che lo stimatore GLS può essere ottenuto come media ponderata degli stimatori Within e Between, in cui i pesi non sono arbitrari ma si riferiscono alle matrici VCV dei due.

... e ci sono anche le varianti dei modelli "Effetti casuali non correlati" e "Effetti casuali correlati".

Spero che quanto sopra aiuti a contrastare i modelli "effetti misti".


+1, grazie Alecos. Questo è utile, ma la relazione di tutto ciò con l'approccio dei modelli misti rimane poco chiara per me. Comincio a sospettare che forse non esiste alcuna relazione. Gli stimatori tra e all'interno (e che l'interno è equivalente ai manichini di classe) sono chiari a proposito; la mia confusione riguarda solo l'approccio degli effetti casuali.
ameba dice di reintegrare Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.