L'analisi di regressione risponde alla domanda "Qual è il valore MEDIO Y per coloro che hanno dato valori X?" o, equivalentemente, "Quanto si prevede che Y cambierà IN MEDIA se cambiamo X di un'unità?" L'errore di misurazione casuale non modifica i valori medi di una variabile o i valori medi per i sottoinsiemi di individui, quindi l'errore casuale nella variabile dipendente non distorcerà le stime di regressione.
Supponiamo che tu abbia dati di altezza su un campione di individui. Queste altezze sono misurate in modo molto preciso, riflettendo accuratamente la vera statura di tutti. All'interno del campione, la media per gli uomini è di 175 cm e la media per le donne è di 162 cm. Se si utilizza la regressione per calcolare in che misura il sesso prevede l'altezza, si stima il modello
HEIGHT=CONSTANT+β∗GENDER+RESIDUAL
Se le donne sono codificate come 0 e gli uomini come 1, è la media femminile, ovvero 162 cm. Il coefficiente di regressione mostra quanta altezza cambia IN MEDIA quando si cambia di un'unità (da 0 a 1). uguale a 13 perché le persone il cui valore per è 0 (donne) hanno un'altezza media di 162 cm mentre le persone il cui valore per è 1 (uomini) hanno un'altezza media di 175 centimetro; stima la differenza media tra le altezze di uomini e donne, che è di 13 cm. ( riflette la varianza all'interno del genere in altezza.)CONSTANTβGENDERβGENDERGENDERβRESIDUAL
Ora, se aggiungi casualmente -1 cm o +1 cm alla vera altezza di tutti, cosa accadrà? Gli individui la cui altezza effettiva è, diciamo, 170 cm saranno ora riportati come 169 o 171 cm. Tuttavia, la media del campione o di qualsiasi sottocampione non cambierà. Coloro la cui altezza effettiva è di 170 cm avrà una media di 170 cm nel nuovo set di dati errato, le donne avranno una media di 162 cm, ecc. Se riesegui il modello di regressione sopra specificato usando questo nuovo set di dati, il valore (atteso) di non cambierà perché la differenza media tra uomini e donne è ancora di 13 cm, indipendentemente dall'errore di misurazione. (L'errore standard di sarà più grande di prima perché la varianza della variabile dipendente è ora maggiore.)ββ
Se c'è un errore di misurazione nella variabile indipendente anziché nella variabile dipendente, sarà una stima distorta. Questo è facile da capire se si considera l'esempio di altezza. Se c'è un errore di misurazione casuale nella variabile , alcuni uomini verranno erroneamente codificati come femmina e viceversa. L'effetto di questo è di ridurre le evidenti differenze di genere in altezza, perché spostare i maschi nel gruppo femminile renderà la media femminile più grande mentre spostare le femmine nel gruppo maschile ridurrà il maschio. Con errore di misurazione nella variabile indipendente, sarà inferiore al valore imparziale di 13 cm.βGENDERβ
Mentre ho usato una variabile indipendente categoriale ( ) per semplicità qui, la stessa logica si applica alle variabili continue. Ad esempio, se si utilizzava una variabile continua come l'altezza di nascita per prevedere l'altezza degli adulti, il valore atteso di sarebbe lo stesso indipendentemente dalla quantità di errore casuale nelle misurazioni dell'altezza degli adulti.GENDERβ