Quando è necessario includere il ritardo della variabile dipendente in un modello di regressione e quale ritardo?


14

I dati che vogliamo usare come variabile dipendente si presentano così (sono i dati di conteggio). Temiamo che, poiché ha una componente ciclica e una struttura di tendenza, la regressione risulta in qualche modo distorta.

inserisci qui la descrizione dell'immagine

Useremo una regressione binomiale negativa nel caso in cui aiuti. I dati sono un pannello bilanciato, un manichino per individuo (stati). L'immagine mostrata mostra la somma della variabile dipendente per tutti gli stati ma la maggior parte degli stati da soli ha un comportamento simile. Stiamo prendendo in considerazione un modello a effetti fissi. Le variabili dipendenti non sono fortemente correlate, parte della ricerca è trovare una relazione inaspettata tra queste variabili, quindi una relazione debole è in realtà qualcosa di buono.

  1. Quali sono i pericoli esatti di non includere una variabile lag della variabile dipendente?
  2. Se è necessario includerne uno, esiste un test per sapere quale / i.

L'attuazione è in corso in R.

Nota : ho letto questo post ma non ha aiutato il nostro problema.

Risposte:


14

Un modello di pannello dinamico potrebbe avere senso se si dispone di un modello di rappresaglia occhio per occhio per gli omicidi. Ad esempio, se il tasso di omicidi fosse in gran parte determinato da faide di bande, gli omicidi al momento potrebbero benissimo essere una funzione delle morti a t - 1 o altri ritardi. tt1

Ho intenzione di rispondere alle tue domande fuori servizio. Supponiamo che il DGP sia

yit=δyit1+xitβ+μi+vit,

dove gli errori e v sono indipendenti l'uno dall'altro e tra loro. Sei interessato a condurre il test per stabilire se δ = 0 (domanda 2).μvδ=0

Se usi OLS, è facile vedere che e la prima parte dell'errore sono correlati, il che rende OLS distorto e incoerente, anche quando non c'è correlazione seriale in v . Abbiamo bisogno di qualcosa di più complicato per fare il test.yit1v

La prossima cosa che potresti provare è lo stimatore di effetti fissi con la trasformazione interna, in cui trasformi i dati sottraendo la media , ˉ y i di ogni unità da ogni osservazione. Questo cancella μ , ma questo stimatore soffre della distorsione di Nickell , che non scompare quando aumenta il numero di osservazioni N , quindi è incoerente per i pannelli N grandi e T piccoli . Tuttavia, man mano che T cresce, ottieni consistenza di δ e β . Judson e Owen (1999) fanno alcune simulazioni con N = 20 ,yy¯iμNNTTδβ e T = 5 , 10 , 20 , 30 e trovato il bias per essere in aumento in δ e decrescente in T . Tuttavia, anche per T = 30 , il bias potrebbe arrivare fino al 20 % del valore del coefficiente reale. Sono brutte notizie! Quindi, a seconda delle dimensioni del tuo pannello, potresti voler evitare lo stimatore FE all'interno. Se δ > 0 , il bias è negativo, quindi la persistenza di y è sottovalutata. Se i regressori sono correlati al ritardo, anche il β sarà distorto.N=20,100T=5,10,20,30δTT=3020%δ>0yβ

Un altro semplice approccio FE è la prima differenza dei dati per rimuovere l'effetto fisso e usare per lo strumento per Δ y i t - 1 = y i t - 1 - y i t - 2 . Usi anche x i t - x i t - 1 come strumento per se stesso. Anderson e Hsiao (1981) è il riferimento canonico. Questo stimatore è coerente (purché le X esplicative siano predeterminate e layit2Δyit1=yit1yit2xitxit1Xi termini di errore originali non sono correlati in serie), ma non completamente efficienti poiché non utilizza tutte le condizioni del momento disponibili e non utilizza il fatto che il termine di errore sia ora differenziato. Questa sarebbe probabilmente la mia prima scelta. Se ritieni che segua un processo AR (1), puoi utilizzare invece il terzo e il quarto ritardo di y .vy

Arellano e Bond (1991) derivano uno stimatore del metodo dei momenti generalizzato (GMM) più efficiente, che è stato esteso da allora, allentando alcune delle ipotesi. Capitolo 8 del del Baltagi libro del pannello è un buon esame di questi studi, anche se non si tratta di selezione ritardo per quanto posso dire. Si tratta di metriche all'avanguardia, ma tecnicamente più impegnative.

Penso che il plmpacchetto in R abbia alcuni di questi integrati. I modelli di pannelli dinamici sono stati in Stata dalla versione 10 e SAS ha almeno la versione GMM . Nessuno di questi sono modelli di dati di conteggio, ma ciò potrebbe non essere un grosso problema a seconda dei dati. Tuttavia, ecco un esempio di un modello di pannello dinamico Poisson GMM in Stata.

yβ


Quindi usi i livelli come strumento quando hai una serie differenziata e le differenze quando hai una serie di livelli ?
Andy W,

iΔyt2=yt2yt3yt2Δyt1=yt1yt2
Dimitriy V. Masterov,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.