Se ripeto ogni osservazione campione in un modello di regressione lineare ed eseguo nuovamente la regressione, come sarebbe influenzato il risultato?


15

Supponiamo che io abbia N osservazioni, possibilmente più fattori e ripeto ogni osservazione due volte (o M volte) come sarebbe una regressione su questo nuovo set di dimensioni NM rispetto a una regressione solo sulle osservazioni originali?

Risposte:


13

Concettualmente, non stai aggiungendo "nuove" informazioni, ma "conosci" tali informazioni in modo più preciso.

Ciò comporterebbe quindi gli stessi coefficienti di regressione, con errori standard più piccoli.

Ad esempio, in Stata, la funzione di espansione x duplica ogni osservazione x volte.

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

Come puoi vedere, i coefficienti (lunghezza) precedentemente insignificanti diventano statisticamente significativi nel modello espanso, rappresentando la precisione con cui "sai" ciò che sai.


Sì, gli errori standard diminuiscono. Alcuni consigliano una regressione lineare ponderata per questo. Esiste un metodo che usi per risolvere questo problema?
BBDynSys,

3

w*=argminw||Xw-y||2
XyMM

D'accordo, ma penso che le statistiche e gli errori standard dovrebbero cambiare vista la modifica da N a NM?
Palace Chan

M*N-PNPM .
Innuo,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.