Soluzione analitica per le stime del coefficiente di regressione lineare


9

Sto cercando di capire la notazione matriciale e di lavorare con vettori e matrici.

In questo momento vorrei capire come viene calcolato il vettore delle stime dei coefficienti nella regressione multipla.β^

L'equazione di base sembra essere

ddβ(yXβ)(yXβ)=0.

Ora come risolverei per un vettore β qui?

Modifica : aspetta, sono bloccato. Sono qui ora e non so come continuare:

ddβ((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))

ddβi=1n(yi(1xi1xi2xip)(β0β1βp))2

Con per tutti essendo l'intercetta:ixi0=1i

ddβi=1n(yik=0pxikβk)2

Puoi indicarmi la giusta direzione?


@GaBorgulya, grazie per la modifica, non lo sapeva smallmatrix, quindi non ha provato a modificare, poiché la solita soluzione di rompere la formula in più righe non avrebbe funzionato qui.
mpiktas,

Risposte:


12

abbiamo

ddβ(yXβ)(yXβ)=2X(yXβ) .

Può essere mostrato scrivendo l'equazione esplicitamente con i componenti. Ad esempio, scrivi invece di . Quindi prendi i derivati ​​rispetto a , , ..., e impila tutto per ottenere la risposta. Per un'illustrazione semplice e veloce, puoi iniziare con . β β 1 β 2 β p p = 2(β1,,βp)ββ1β2βpp=2

Con l'esperienza si sviluppano regole generali, alcune delle quali sono riportate, ad esempio, in quel documento .

Modifica per guidare per la parte aggiunta della domanda

Con , abbiamop=2

(yXβ)(yXβ)=(y1x11β1x12β2)2+(y2x21β1x22β2)2

La derivata rispetto a èβ1

2x11(y1x11β1x12β2)2x21(y2x21β1x22β2)

Allo stesso modo, la derivata rispetto a èβ2

2x12(y1x11β1x12β2)2x22(y2x21β1x22β2)

Quindi, la derivata rispetto a èβ=(β1,β2)

(2x11(y1x11β1x12β2)2x21(y2x21β1x22β2)2x12(y1x11β1x12β2)2x22(y2x21β1x22β2))

Ora, osserva che puoi riscrivere l'ultima espressione come

2(x11x21x12x22)(y1x11β1x12β2y2x21β1x22β2)=2X(yXβ)

Certo, tutto è fatto allo stesso modo per un più grande .p


Fantastico, stavo cercando esattamente quel tipo di pdf. Grazie mille!
Alexander Engelhardt,

Oh, pensavo di poterlo fare da solo ora, ma non posso. Puoi dirmi se i miei passi sono giusti o se dovrei prendere "un altro modo" per risolvere questo?
Alexander Engelhardt,

@Alexx Hardt: la mia prima equazione nella modifica è la stessa dell'ultima equazione nel caso particolare in cui p = 2. Quindi, puoi imitare i miei calcoli per i componenti 3, 4, ..., p.
Ocram,

Grazie ancora :) Penso che userò effettivamente tutti e tre i suggerimenti. Sto costruendo un .pdf che spiega e riassume l'algebra della matrice delle statistiche di base, perché in qualche modo non ho mai voluto impararlo quando l'ho imparato nelle mie lezioni. Spero che risolverlo in tre modi diversi mi aiuti a capirlo meglio.
Alexander Engelhardt,

Oh, ma questo è per p = 2 e n = 2, giusto? Lo scriverò con n = 3 penso.
Alexander Engelhardt,

13

Puoi anche usare le formule del ricettario Matrix . abbiamo

(yXβ)(yXβ)=yyβXyyXβ+βXXβ

Ora prendi derivati ​​di ogni termine. Potresti notare che . La derivata del termine rispetto a è zero. Il termine rimanentey y ββXy=yXβyyβ

βXXβ2yXβ

è di forma funzionale

f(x)=xAx+bx,

nella formula (88) nel libro a pagina 11, con , e . Il derivato è dato nella formula (89):A = X X b = - 2 X yx=βA=XXb=2Xy

fx=(A+A)x+b

così

β(yXβ)(yXβ)=(XX+(XX))β2Xy

Ora da otteniamo la soluzione desiderata:(XX)=XX

XXβ=Xy

+1 mpiktas: la tua soluzione è più ingegnosa della mia e penso che dovrebbe essere utilizzata in situazioni pratiche più complesse.
Ocram,

1
@ocram, grazie. Non lo definirei geniale, è un'applicazione standard delle formule esistenti. Devi solo conoscere le formule :)
mpiktas,

8

Ecco una tecnica per ridurre al minimo la somma dei quadrati in regressione che in realtà ha applicazioni a impostazioni più generali e che trovo utili.

Proviamo a evitare del tutto il calcolo della matrice vettoriale.

Supponiamo di essere interessati a minimizzare dove , e . Supponiamo per semplicità che e .yR n

E=(yXβ)T(yXβ)=yXβ22,
yRn β R p p n r a n k ( X ) = pXRn×pβRppnrank(X)=p

Per ogni , otteniamo E=y-X β +X β -Xβ 2 2 =y-X β 2 2 +X(β-β^Rp

E=yXβ^+Xβ^Xβ22=yXβ^22+X(ββ^)222(ββ^)TXT(yXβ^).

Se possiamo scegliere (trova!) Un vettore tale che l'ultimo termine sul lato destro sia zero per ogni , allora saremmo fatti, dal momento che ciò implicherebbe che . βminβEy-X β 2 2β^ βminβEyXβ^22

Ma, per tutti se e solo se e quest'ultima equazione è vera se e solo se . Quindi è minimizzato prendendo .β X T ( Y - X β ) = 0 X T X β = X T(ββ^)TXT(yXβ^)=0βXT(yXβ^)=0E β = ( X T X ) - 1 X T yXTXβ^=XTyEβ^=(XTX)1XTy


Mentre questo può sembrare un "trucco" per evitare il calcolo, in realtà ha un'applicazione più ampia e c'è una geometria interessante in gioco.

Un esempio in cui questa tecnica rende una derivazione molto più semplice di qualsiasi approccio di calcolo matrice-vettore è quando generalizziamo il caso matrice. Lascia che , e . Supponiamo di voler minimizzare sull'intera matrice di parametri . Here è una matrice di covarianza. XR n × q BR q × p E = tYRn×pXRn×qBRq×p

E=tr((YXB)Σ1(YXB)T)
BΣ

Un approccio del tutto analogo a quanto sopra stabilisce rapidamente che il minimo di ottiene prendendo Cioè, in un contesto di regressione in cui la risposta è un vettore con covarianza e le osservazioni sono indipendenti, la stima OLS viene raggiunta effettuando regressioni lineari separate sui componenti della risposta.EΣ p

B^=(XTX)1XTY.
Σp

Fortunatamente le regole del forum consentono di aggiungere +1 a ogni risposta. Grazie per l'educazione, ragazzi!
DWin,

@DVin, intendevi postare questo sotto i commenti alla domanda?
cardinale il

Suppongo che avrei potuto. Ho seguito in sequenza la domanda e poi tutte le risposte (dopo che l'elaborazione del MathML ha smesso di sussultare) e ho trovato ciascuna delle risposte informativa. Ho appena lasciato il mio commento sul tuo perché era dove ho smesso di leggere.
DWin,

1
@Vinci, sì, il rendering è un po 'funky. Ho pensato che potresti aver inteso il commento per un altro post poiché questo non ha voti (su o giù) e quindi il commento sembrava essere fuori posto. Saluti.
cardinale il

1
@ cardinale +1, trucco utile. Questa domanda si è rivelata un ottimo riferimento.
mpiktas,

6

Un modo che può aiutarti a capire è di non usare l'algebra matriciale e di differenziarli per ciascun componente, quindi "archiviare" i risultati in un vettore di colonna. Quindi abbiamo:

βki=1N(Yij=1pXijβj)2=0

Ora hai di queste equazioni, una per ogni beta. Questa è una semplice applicazione della regola della catena:p

i=1N2(Yij=1pXijβj)1(βk[Yij=1pXijβj])=0
2i=1NXik(Yij=1pXijβj)=0

Ora possiamo riscrivere la somma all'interno della parentesi come Quindi ottieni:j=1pXijβj=xiTβ

i=1NXikYii=1NXikxiTβ=0

Ora abbiamo di queste equazioni e le "impileremo" in un vettore di colonna. Nota come è l'unico termine che dipende da , quindi possiamo impilarlo nel vettore e otteniamo:pXikkxi

i=1NxiYi=i=1NxixiTβ

Ora possiamo prendere la beta al di fuori della somma (ma dobbiamo rimanere su RHS della somma), e quindi prendere l'inverter:

(i=1NxixiT)1i=1NxiYi=β
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.