Le stime dei parametri sono distorte se la variabile dipendente è un tasso pro capite basato su dati di popolazione approssimativi?


3

Supponiamo di voler stimare un modello:

(1)Yi=β0+β1Xi+ϵi

dove sono medie o tassi pro capite per regioni o zone geografiche, quindi se è la variabile aggregata di interesse regionale e è la popolazione:Z i P iYiZiPi

(2)Yi=Zi/Pi

Se tutte le variabili sono misurate accuratamente e se esistono β0 e β1 tali che per tutti i:

(3)E[Yiβ0β1Xi]=E[ϵi]=0

quindi la stima OLS del modello (1) dovrebbe produrre una stima imparziale di β1 .

Supponiamo tuttavia che le stime di Pi siano solo approssimative. Questo è in pratica probabilmente poiché i valori di Pi saranno quasi sicuramente ottenuti o derivati ​​dai dati del censimento, portando a diverse possibili fonti di errore:

  1. errore nei dati del censimento originale;
  2. estrapolazione dai dati del censimento utilizzando ipotesi sull'andamento della popolazione in cui sono richiesti dati per una data successiva;
  3. le regioni utilizzate nel modello potrebbero non corrispondere alle aree del censimento, ad esempio anelli concentrici attorno a un punto centrale. Un esempio è uno studio di valutazione dei costi di viaggio riportato in Herath (1999) (1) in cui le popolazioni nell'intervallo da 5.000 a 35.000 per zone ad anello concentrico sono tutte espresse in multipli esatti di 5.000, suggerendo che le cifre sono solo molto approssimative.

Gli errori in ovviamente "infetteranno" i valori di , ma non in modo semplice, poiché l'effetto assoluto su di un dato errore in dipenderà dalla dimensione di (e se non ci sarà errore in ). PiYiYiPiZiZi=0Yi

Domanda : dati gli errori in , la stima OLS del modello (1) produrrà una stima imparziale di e, in caso contrario, in quali condizioni aggiuntive la stima sarebbe imparziale?Piβ1

Riferimento

  1. Herath, G (1999) Stima dei valori comunitari dei laghi: uno studio sul lago Mokoan nella Victoria Australia Analisi economica e politica 29 (1) Tabella 1 p 37

Risposte:


2

Che ne dici di ipotizzare un processo di errore moltiplicativo e quindi di usare i log?

Supponiamo che il processo di generazione dei dati sia leggermente diverso: Yi=β0Xiβ1Ei

Se in verità, ma tutto ciò che potremmo davvero osservare era:Yi=Zi/Pi

P^i=PiΓi , dove era il valore reale e era un errore di misurazione strettamente positivo.PiΓi

Stimeremo in pratica la seguente equazione:

Y^i=Zi/P^i=β0Xiβ1Ei

prendere i registri di entrambi i lati (le lettere minuscole sono registri di singole variabili):

yi=β0+β1xi+ϵiγi

Se definiamo una variabile allora possiamo avere un'equazione che assomiglia molto a quella che hai scritto sopra.ξi=ϵiγiyi=β0+β1xi+ξi

Se soddisfa le stesse relazioni con le variabili di registro che fa con le variabili di livello, sembra che tutto dovrebbe ancora funzionare.ξiϵi


2

Solo per integrare la risposta di @ Bkay, "l'errore di misurazione" nella variabile dipendente è relativamente "innocuo", ciò che fa male è l'errore nella misurazione nei regressori.

Se abbiamo un errore di misurazione nella variabile dipendente, ciò che dobbiamo assumere in aggiunta, al fine di preservare l'imparzialità, è che questo errore è indipendente dai regressori. Se possiamo ragionevolmente supporre che (e di solito possiamo), allora la risposta di @BKay mostra che l'effetto è solo una trasformazione del termine di errore della regressione. Può influire sulla varianza, ma non sulle stime dei parametri.

Al contrario, se abbiamo un errore di misura nei regressori, allora smettono di essere rigorosamente esogeni al termine dell'errore e l'imparzialità viene persa.


Ciò che mi preoccupa è che questa è un'impostazione in cui si desidera dedurre le risposte individuali dalle risposte medie delle sottopopolazioni. Ma sappiamo dal paradosso di Simpson che questo è spesso sbagliato. Quindi il risultato dell'equazione 3 di @AdamBailey è in realtà abbastanza restrittivo e non ero sicuro che l'aggiunta dell'errore di misurazione LHS che di solito è innocuo a livello individuale sarebbe allo stesso modo innocuo all'errore di sottopopolazione dato l'inferenza desiderata.
Sabato

@BKay Forse non ho formulato correttamente il mio (3). Ciò che intendevo implicare è che il modello soddisfa tutte le condizioni del Modello di regressione lineare classica, oltre all'omoscedasticità (tale eccezione deve essere fatta perché i modelli del tipo descritto sono quasi inevitabilmente eteroscedastici poiché, a parità di altre condizioni, sarà più piccolo per le regioni con popolazioni più grandi). Var[Yi]
Adam Bailey,

@Bkay In qualsiasi configurazione, se l'errore di misurazione della variabile dipendente è innocuo o meno, dipende dal fatto che possa essere considerato stocasticamente indipendente dai regressori. Quindi si guardano i regressori e si fa una valutazione del problema. Nella domanda di Adamo i regressori non sono affatto identificati, quindi non possiamo andare oltre il principio generale appena affermato.
Alecos Papadopoulos,

@AdamBailey Per quanto riguarda l'eteroschedasticità indotta, dipende da quali sono considerate ipotesi ragionevoli sul termine dell'errore, cioè da come crediamo che emerga la misurazione dell'errore, e cosa ciò può implicare per il suo comportamento stocastico.
Alecos Papadopoulos,

1
@Bkay I modelli a coefficienti casuali non devono necessariamente essere gerarchici, né necessitano necessariamente dei dati del pannello. Ricordo ad esempio il modello di Hildreth-Houck. Per quanto riguarda ciò che recuperiamo quando eseguiamo le stime, questo è davvero qualcosa che necessita sempre di un'attenta riflessione.
Alecos Papadopoulos,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.