Perché l'errore di misurazione nella variabile dipendente non pregiudica i risultati?


10

Quando c'è un errore di misurazione nella variabile indipendente, ho capito che i risultati saranno distorti rispetto a 0. Quando la variabile dipendente viene misurata con errore, dicono che influenza solo gli errori standard, ma per me non ha molto senso perché siamo stimare l'effetto di non sulla variabile originale ma su qualche altra più un errore. In che modo ciò non influisce sulle stime? In questo caso posso usare anche variabili strumentali per rimuovere questo problema?XYY

Risposte:


16

Quando vuoi stimare un modello semplice come e invece del vero lo osservi solo con qualche errore che è tale che è non correlato con e , se si regredisce tua stimata è

Yi=α+βXi+ϵi
YiY~i=Yi+νiXϵ
Y~i=α+βXi+ϵi
β
β^=Cov(Y~i,Xi)Var(Xi)=Cov(Yi+νi,Xi)Var(Xi)=Cov(α+βXi+ϵi+νi,Xi)Var(Xi)=Cov(α,Xi)Var(Xi)+βCov(Xi,Xi)Var(Xi)+Cov(ϵi,Xi)Var(Xi)+Cov(νi,Xi)Var(Xi)=βVar(Xi)Var(Xi)=β
perché la covarianza tra un una variabile casuale e una costante ( ) sono pari a zero così come le covarianze tra e poiché abbiamo assunto che non siano correlate.αXiϵi,νi

Quindi vedi che il tuo coefficiente è costantemente stimato. L'unica preoccupazione è che ti dà un termine aggiuntivo nell'errore che riduce la potenza dei tuoi test statistici. In casi molto gravi di tale errore di misurazione nella variabile dipendente potresti non trovare un effetto significativo anche se potrebbe esserci nella realtà. In generale, le variabili strumentali non ti aiuteranno in questo caso perché tendono ad essere ancora più imprecise rispetto a OLS e possono solo aiutare con errori di misurazione nella variabile esplicativa.Y~i=Yi+νi=α+βXi+ϵi+νi


Ho una semplice domanda qui: cosa succede se l'vi, che è l'errore di misurazione nella variabile dipendente, è correlato con la variabile indipendente di interesse? Immagino che ci siano molte possibilità che ciò possa accadere e il pregiudizio della desiderabilità sociale può essere un esempio. Se gli intervistati avevano un pregiudizio di desiderabilità sociale quando rispondevano al / ai questionario / i variabile dipendente e se tale desiderabilità era correlata alla variabile indipendente, diciamo l'età o il genere (che potrebbe essere probabilmente correlato all'opportunità sociale), cosa succede in termini di endogeneità allora?
Kang Inkyu,

3

L'analisi di regressione risponde alla domanda "Qual è il valore MEDIO Y per coloro che hanno dato valori X?" o, equivalentemente, "Quanto si prevede che Y cambierà IN MEDIA se cambiamo X di un'unità?" L'errore di misurazione casuale non modifica i valori medi di una variabile o i valori medi per i sottoinsiemi di individui, quindi l'errore casuale nella variabile dipendente non distorcerà le stime di regressione.

Supponiamo che tu abbia dati di altezza su un campione di individui. Queste altezze sono misurate in modo molto preciso, riflettendo accuratamente la vera statura di tutti. All'interno del campione, la media per gli uomini è di 175 cm e la media per le donne è di 162 cm. Se si utilizza la regressione per calcolare in che misura il sesso prevede l'altezza, si stima il modello

HEIGHT=CONSTANT+βGENDER+RESIDUAL

Se le donne sono codificate come 0 e gli uomini come 1, è la media femminile, ovvero 162 cm. Il coefficiente di regressione mostra quanta altezza cambia IN MEDIA quando si cambia di un'unità (da 0 a 1). uguale a 13 perché le persone il cui valore per è 0 (donne) hanno un'altezza media di 162 cm mentre le persone il cui valore per è 1 (uomini) hanno un'altezza media di 175 centimetro; stima la differenza media tra le altezze di uomini e donne, che è di 13 cm. ( riflette la varianza all'interno del genere in altezza.)CONSTANTβGENDERβGENDERGENDERβRESIDUAL

Ora, se aggiungi casualmente -1 cm o +1 cm alla vera altezza di tutti, cosa accadrà? Gli individui la cui altezza effettiva è, diciamo, 170 cm saranno ora riportati come 169 o 171 cm. Tuttavia, la media del campione o di qualsiasi sottocampione non cambierà. Coloro la cui altezza effettiva è di 170 cm avrà una media di 170 cm nel nuovo set di dati errato, le donne avranno una media di 162 cm, ecc. Se riesegui il modello di regressione sopra specificato usando questo nuovo set di dati, il valore (atteso) di non cambierà perché la differenza media tra uomini e donne è ancora di 13 cm, indipendentemente dall'errore di misurazione. (L'errore standard di sarà più grande di prima perché la varianza della variabile dipendente è ora maggiore.)ββ

Se c'è un errore di misurazione nella variabile indipendente anziché nella variabile dipendente, sarà una stima distorta. Questo è facile da capire se si considera l'esempio di altezza. Se c'è un errore di misurazione casuale nella variabile , alcuni uomini verranno erroneamente codificati come femmina e viceversa. L'effetto di questo è di ridurre le evidenti differenze di genere in altezza, perché spostare i maschi nel gruppo femminile renderà la media femminile più grande mentre spostare le femmine nel gruppo maschile ridurrà il maschio. Con errore di misurazione nella variabile indipendente, sarà inferiore al valore imparziale di 13 cm.βGENDERβ

Mentre ho usato una variabile indipendente categoriale ( ) per semplicità qui, la stessa logica si applica alle variabili continue. Ad esempio, se si utilizzava una variabile continua come l'altezza di nascita per prevedere l'altezza degli adulti, il valore atteso di sarebbe lo stesso indipendentemente dalla quantità di errore casuale nelle misurazioni dell'altezza degli adulti.GENDERβ

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.