Come derivare lo stimatore meno quadrato per la regressione lineare multipla?


30

Nel caso di regressione lineare semplice , puoi derivare lo stimatore meno quadrato tale che non devi conoscere per stimareβ 1 = Σ ( x i - ˉ x ) ( y i - ˉ y )y=β0+β1xβ 0 β 1β^1=(xix¯)(yiy¯)(xix¯)2β^0β^1

Supponiamo di avere , come posso derivare senza stimare ? o non è possibile?β 1 β 2y=β1x1+β2x2β^1β^2


1
È possibile omettere una delle variabili e ottenere comunque una stima imparziale dell'altra se sono indipendenti.
david25272

Risposte:


51

La derivazione in notazione matriciale

A partire da , che è davvero lo stesso diy=Xb+ϵ

[y1y2yN]=[x11x12x1Kx21x22x2KxN1xN2xNK][b1b2bK]+[ϵ1ϵ2ϵN]

tutto si riduce a minimizzare ee :

ϵϵ=[e1e2eN][e1e2eN]=i=1Nei2

Quindi minimizzare ee ci dà:

e e = ( y - X b ) ( y - X b )minb ee=(yXb)(yXb)

e e = y y - 2 b X y + b X X bminb ee=yy2bXy+bXXb

(ee)b=2Xy+2XXb=!0

XXb=Xy

b=(XX)1Xy

Un'ultima cosa matematica, la condizione del secondo ordine per un minimo richiede che la matrice sia definita positiva. Questo requisito è soddisfatto nel caso in cui abbia il grado completo.XXXX

La derivazione più accurata che attraversa tutte le fasi di maggiore approfondimento è disponibile all'indirizzo http://economictheoryblog.com/2015/02/19/ols_estimator/


3
Questa derivazione è esattamente ciò che stavo cercando. NESSUN PASSO SALTO. Sorprendente quanto sia difficile trovarlo.
javadba,

1
Nell'equazione della matrice, il secondo non dovrebbe *essere un +? Inoltre, non dovrebbe essere anziché per far corrispondere le dimensioni? b NbKbN
Alexis Olson,

Alexis Olson, hai ragione! Ho modificato la mia risposta.
Andreas Dibiasi,

13

È possibile stimare solo un coefficiente in una regressione multipla senza stimare gli altri.

La stima di si ottiene rimuovendo gli effetti di dalle altre variabili e quindi regredendo i residui di rispetto ai residui di . Questo è spiegato e illustrato Come si controlla esattamente per altre variabili? e Come normalizzare (a) coefficiente di regressione? . La bellezza di questo approccio è che non richiede alcun calcolo, nessuna algebra lineare, può essere visualizzato usando solo geometria bidimensionale, è numericamente stabile e sfrutta solo un'idea fondamentale di regressione multipla: quella di eliminare (o "controllare per" ) gli effetti di una singola variabile.x 2 y x 1β1x2yx1


Nel caso presente, la regressione multipla può essere eseguita utilizzando tre passaggi di regressione ordinaria:

  1. Regress su (senza un termine costante!). Lascia che l'adattamento sia . La stima è Pertanto i residui sono Dal punto di vista geometrico, è ciò che resta di dopo la sottrazione della sua proiezione su .x 2 y = α y , 2 x 2 + δ α y , 2 = i y i x 2 iyx2y=αy,2x2+δδ=y-αy,2x2. δyx2

    αy,2=iyix2iix2i2.
    δ=yαy,2x2.
    δyx2
  2. Registra su (senza un termine costante). Lascia che l'adattamento sia . La stima èI residui sonoDal punto di vista geometrico, è ciò che resta di dopo la sottrazione della sua proiezione su .x 2 x 1 = α 1 , 2 x 2 + γ α 1 , 2 = i x 1 i x 2 ix1x2x1=α1,2x2+γγ=x1-α1,2x2. γx1x2

    α1,2=ix1ix2iix2i2.
    γ=x1α1,2x2.
    γx1x2
  3. Regress on (senza un termine costante). La stima èL'adattamento sarà . Geometricamente, è il componente di (che rappresenta con eliminato) nella direzione (che rappresenta con eliminato).γ ß 1 = Σ i δ i γ iδγδ= β 1γ+ε β 1δyx2γx1x2

    β^1=iδiγiiγi2.
    δ=β^1γ+εβ^1δyx2γx1x2

Si noti che non è stato stimato. β2 Può essere facilmente recuperato da ciò che è stato ottenuto finora (proprio come nel caso di regressione ordinaria si ottiene facilmente dalla stima della pendenza ). I sono i residui per la regressione bivariata di su e .β 0 β 1 εy x 1 x 2β^0β^1εyx1x2

Il parallelo con la regressione ordinaria è forte: i passaggi (1) e (2) sono analoghi alla sottrazione dei mezzi nella solita formula. Se lasci che sia un vettore di quelli, in realtà recupererai la solita formula.x2

Questo generalizza in modo ovvio per regressione con più di due variabili: stimare , regresso e separatamente contro tutte le altre variabili, poi regredire i residui contro l'altro. A quel punto nessuno degli altri coefficienti nella regressione multipla di è stato ancora stimato.yx1yβ^1yx1y


1
Ottima risposta, ecco un teorema generale en.wikipedia.org/wiki/…
JohnK,

4

La stima dei minimi quadrati ordinari di è una funzione lineare della variabile di rispostaβ . In poche parole, la stima OLS dei coefficienti, i , può essere scritta usando solo la variabile dipendente ( ) e le variabili indipendenti ( ).Y i X k iβYiXki

Per spiegare questo fatto per un modello di regressione generale, è necessario comprendere una piccola algebra lineare. Supponiamo di voler stimare i coefficienti in un modello di regressione multipla,(β0,β1,...,βk)

Yi=β0+β1X1i+...+βkXki+ϵi

dove per . La matrice di progettazione è una matrice cui ciascuna colonna contiene le osservazioni della variabile dipendente . Puoi trovare molte spiegazioni e derivazioni qui della formula utilizzata per calcolare i coefficienti stimati , che èϵiiidN(0,σ2)i=1,...,nXn×knkthXkβ^=(β^0,β^1,...,β^k)

β^=(XX)1XY

supponendo che esista l'inverso . I coefficienti stimati sono funzioni dei dati, non degli altri coefficienti stimati.(XX)1


Ho una domanda di follow-up, sul semplice caso di regressione, fai quindi diventa una matrice di e , quindi seguire la . Come devo riscrivere l'equazione nel mio caso? yi=β0+β1x¯+β1(xix¯)+eiX(1,...,1)(x1x¯,...,xnx¯)β^=(XX)(1)XY
Sabre CN,

E un'altra domanda, questo vale per i casi in cui e non sono lineari, ma il modello è ancora lineare? Ad esempio la curva di decadimento , posso sostituire l'esponente con e modo che diventi la mia domanda originale? x1x2y=β1ex1t+β2ex2tx1x2
Sabre CN,

Nel tuo primo commento, puoi centrare la variabile (sottrarre la sua media da essa) e usare quella che è la tua variabile indipendente. Cerca "regressione standardizzata". La formula che hai scritto in termini di matrici non è corretta. Per la tua seconda domanda, sì, puoi farlo, un modello lineare è lineare in , quindi fintanto che uguale a una combinazione lineare di stai bene. βyβ
Caburke,

2
(+1). Ma non dovrebbe essere " matrix" invece di ? n×kk×n
miura,

3

Una piccola nota minore sulla teoria vs. la pratica. Matematicamente possono essere stimati con la seguente formula:β0,β1,β2...βn

β^=(XX)1XY

dove sono i dati di input originali e è la variabile che vogliamo stimare. Ciò deriva dalla minimizzazione dell'errore. Lo proverò prima di fare un piccolo punto pratico.XY

Sia l'errore che la regressione lineare fa al punto . Poi:eii

ei=yiyi^

L'errore al quadrato totale che commettiamo ora è:

i=1nei2=i=1n(yiyi^)2

Perché abbiamo un modello lineare sappiamo che:

yi^=β0+β1x1,i+β2x2,i+...+βnxn,i

Che può essere riscritto in notazione matrice come:

Y^=Xβ

Lo sappiamo

i=1nei2=EE

Vogliamo ridurre al minimo l'errore quadrato totale, in modo che la seguente espressione sia il più piccola possibile

EE=(YY^)(YY^)

Questo è uguale a:

EE=(YXβ)(YXβ)

La riscrittura può sembrare confusa ma deriva dall'algebra lineare. Si noti che le matrici si comportano in modo simile alle variabili quando le stiamo moltiplicando per alcuni aspetti.

Vogliamo trovare i valori di modo che questa espressione sia il più piccola possibile. Dovremo differenziare e impostare la derivata uguale a zero. Usiamo la regola della catena qui.β

dEEdβ=2XY+2XXβ=0

Questo da:

XXβ=XY

Tale che infine:

β=(XX)1XY

Quindi matematicamente sembra che abbiamo trovato una soluzione. C'è un problema però, ed è che è molto difficile da calcolare se la matrice è molto grande. Ciò potrebbe dare problemi di precisione numerica. Un altro modo per trovare i valori ottimali per in questa situazione è utilizzare un metodo di discesa gradiente. La funzione che vogliamo ottimizzare è illimitata e convessa, quindi in pratica dovremmo utilizzare un metodo gradiente. (XX)1Xβ


tranne per il fatto che non è necessario calcolare ...(XX)1
user603

punto valido. si potrebbe anche usare il processo gram schmidt, ma volevo solo notare che trovare i valori ottimali per il vettore può anche essere fatto numericamente a causa della convessità. β
Vincent Warmerdam,

2

Una derivazione semplice può essere fatta semplicemente usando l'interpretazione geometrica di LR.

Regressione lineare può essere interpretata come la proiezione di sullo spazio colonna . Così, l'errore, è ortogonale allo spazio colonna . YXϵ^X

Pertanto, il prodotto interno tra e l'errore deve essere 0, ovvero X

<X,yXβ^>=0

XyXXβ^=0

Xy=XXβ^

Ciò implica che,

(XX)1Xy=β^ .

Ora lo stesso può essere fatto da:

(1) Proiettando su (errore ), ,YX2δ=YX2D^D^=(X2X2)1X2y

(2) Proiettando su (errore ), ,X 2 γ = X 1 - X 2 G G = ( X ' 1 x 1 ) - 1 X 1 X 2X1X2γ=X1X2G^G^=(X1X1)1X1X2

e infine,

(3) Proiettando su ,y ß 1δγβ^1

inserisci qui la descrizione dell'immagine

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.