Stima


14

Ho un modello economico teorico che è il seguente,

y=a+b1x1+b2x2+b3x3+u

Quindi la teoria dice che ci sono , e fattori per stimare .x1x2x3y

Ora ho i dati reali e devo stimare , , . Il problema è che il set di dati reali contiene solo dati per e ; non ci sono dati per . Quindi il modello che posso adattare in realtà è:b1b2b3x1x2x3

y=a+b1x1+b2x2+u
  • È corretto stimare questo modello?
  • Perdo qualcosa stimandolo?
  • Se faccio una stima , , dove va il termine ?b1b2b3x3
  • È giustificato dal termine di errore ?u

E vorremmo supporre che non sia correlato con e .x3x1x2


Puoi fornire dettagli sul tuo set di dati, voglio dire, sulla tua variabile dipendente e sulle variabili indipendenti e ? yx1x2
Vara,

Pensalo come un esempio ipotetico senza un set di dati specifico ...
renatia,

Risposte:


20

Il problema di cui devi preoccuparti si chiama endogeneità . Più specificamente, dipende se è correlato nella popolazione con o . In tal caso, i associati verranno distorti. Questo perché i metodi di regressione OLS costringono i residui, , a non essere correlati con le covariate, s. Tuttavia, i tuoi residui sono composti da una casualità irriducibile, , e dalla variabile non osservata (ma rilevante), , che per stipulazione è correlata con e / ox3x1x2bjuixjεix3x1x2 . D'altra parte, se sia che non sono correlati con nella popolazione, allora i loro non saranno influenzati da questo (potrebbero essere influenzati da qualcos'altro, ovviamente). Un modo in cui gli econometrici cercano di affrontare questo problema è usando le variabili strumentali . x1x2x3b

Per maggiore chiarezza, ho scritto una rapida simulazione in R che dimostra che la distribuzione campionaria di è imparziale / centrata sul valore reale di , quando non è correlata a . Nella seconda esecuzione, tuttavia, si noti che non è correlato con , ma non . Non a caso, è imparziale, ma è distorto. β 2 x 3 x 3 x 1 x 2 b 1 b 2b2β2x3x3x1x2b1b2

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64

Quindi, puoi lamentarti un po 'di più: cosa succede se assumiamo che x3 non sia sostituito da $ x_1 e x2? Quindi cosa succede se si stima y = a + b1x1 + b2x2 + u?
renatia,

1
saranno incorporati nei residui in entrambi i modi, masenon è correlato nella popolazione, le altre b non saranno influenzate dall'assenza di x 3 , ma se non è correlato, lo saranno. b3x3bx3
gung - Ripristina Monica

Per dirlo più chiaramente: Se non è correlato con x 1 x 2x3x1 o , stai bene. x2
gung - Ripristina Monica


3

Pensiamo a questo in termini geometrici. Pensa a una "palla", la superficie di una palla. È descritto come . Ora se hai i valori per x 2 , y 2 , z 2 e hai misure di r 2 , puoi determinare i tuoi coefficienti "a", "b" e "c". (Potresti chiamarlo ellissoide, ma chiamarlo palla è più semplice.)r2=ax2+by2+cz2+ϵx2y2z2r2

Se hai solo i termini e y 2 , puoi creare un cerchio. Invece di definire la superficie di una palla, descriverai un cerchio pieno. L'equazione che si adatta invece è r 2a x 2 + b y 2 + ϵ . x2y2r2ax2+by2+ϵ

Stai proiettando la "palla", qualunque sia la sua forma, nell'espressione per il cerchio. Potrebbe essere una "palla" orientata in diagonale che ha la forma di un ago da cucito, quindi i componenti rovinano completamente le stime dei due assi. Potrebbe essere una palla che assomiglia a un m & m quasi schiacciato in cui gli assi delle monete sono "x" e "y" e la proiezione è zero. Non puoi sapere quale sia senza le informazioni " z ".zz

L'ultimo paragrafo parlava di un caso di "pura informazione" e non spiegava il rumore. Le misurazioni del mondo reale hanno il segnale con rumore. Il rumore lungo il perimetro allineato agli assi avrà un impatto molto più forte sulla calzata. Anche se hai lo stesso numero di campioni, avrai più incertezza nelle stime dei parametri. Se si tratta di un'equazione diversa da questa semplice custodia lineare orientata agli assi, allora le cose possono andare "a forma di pera ". Le tue equazioni attuali sono a forma di piano, quindi invece di avere un limite (la superficie della palla), i dati z potrebbero andare su tutta la mappa - la proiezione potrebbe essere un problema serio.

Va bene modellare? Questa è una chiamata di giudizio. Un esperto che capisce i dettagli del problema potrebbe rispondere a questo. Non so se qualcuno possa dare una buona risposta se è lontano dal problema.

Si perdono molte cose buone, inclusa la certezza nelle stime dei parametri e la natura del modello che viene trasformato.

La stima per scompare in epsilon e nelle altre stime dei parametri. Viene riassunto da tutta l'equazione, a seconda del sistema sottostante.b3


1
Non posso davvero seguire il tuo argomento qui, e non sono sicuro che sia corretto. Ad esempio, la superficie di una sfera è 4πr2 . Oltre a ciò, non sono sicuro di come questo si collega alla domanda. Il problema chiave è se la variabile omessa è o meno correlata con le variabili presenti nel modello. Non sono sicuro di come ciò che stai dicendo risolva questo problema. (Per chiarezza, lo dimostrerò con una semplice simulazione R.)
gung - Ripristina Monica

Gung. Ho dato una sfera di risposta nel migliore dei casi -> cerchio e ho mostrato che ha cambiato il modello in modi inaspettati. Mi è piaciuta la raffinatezza tecnica della tua risposta, ma non sono convinto che il richiedente sia in grado di utilizzare una delle nostre risposte. la è l'equazione per la superficie di un ellissoide in 3 dimensioni, una sfera ne è un caso. Suppongo che il "vero modello" sia la superficie della sfera, ma sulla superficie sono presenti misure corrotte dal rumore. Eliminare una dimensione fornisce dati che, nella migliore delle ipotesi, formano un cerchio pieno anziché la superficie di una sfera. f(x,y,z)
EngrStudent - Ripristina Monica

Non riesco a seguire il tuo argomento perché non vedo nulla che corrisponda a un "quadrato pieno".
whuber

0

Le altre risposte, sebbene non sbagliate, complicano un po 'il problema.

Se è veramente non correlato con x 1 e x 2 (e la relazione vera è come specificato), puoi stimare la tua seconda equazione senza problemi. Come suggerisci, β 3 x 3 sarà assorbito dal (nuovo) termine di errore. Le stime OLS saranno imparziali, purché valgano tutte le altre ipotesi OLS.x3x1x2β3x3

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.