Perché la traccia di


13

Nel modello y=Xβ+ϵ , potremmo stimare β usando l'equazione normale :

β^=(XX)1Xy,
e potremmo ottenere y =X β .
y^=Xβ^.

Il vettore dei residui è stimato da

ϵ^=yXβ^=(IX(XX)1X)y=Qy=Q(Xβ+ϵ)=Qϵ,

dove

Q=IX(XX)1X.

La mia domanda è come ottenere la conclusione di

tr(Q)=np.

Risposte:


12

La conclusione conta semplicemente le dimensioni degli spazi vettoriali. Tuttavia, non è generalmente vero.

Le proprietà più elementari della moltiplicazione della matrice mostrano che la trasformazione lineare rappresentata dalla matrice soddisfaH=X(XX)X

H2=(X(XX)X)2=X(XX)(XX)(XX)X=H,

esibendolo come un operatore di proiezione . Pertanto il suo complemento

Q=1H

(come indicato nella domanda) è anche un operatore di proiezione. La traccia di è il suo rango h (vedi sotto), da cui la traccia di Q è uguale a nHhQ .nh

Dalla sua stessa formula è evidente che è la matrice associata alla composizione di due trasformazioni lineari J = ( X X ) - X e X stessa. Il primo ( J ) trasforma il n -vettore y in p -vettore β . Il secondo ( X ) è una trasformazione da R p a R n in y = XH

J=(XX)X
XJnypβ^XRpRny^=Xβ^. Il suo rango non può superare la più piccola di quelle due dimensioni, che in un'impostazione dei minimi quadrati è sempre (ma potrebbe essere inferiore a p , ogni volta che J non è di rango completo). Di conseguenza la posizione di composizione H = X J non può superare la posizione di X . La conclusione corretta , quindi, èppJH=XJX

se e solo se J è di rango massimo; e in generale n tr ( Q ) n - p . Nel primo caso si dice che il modello è "identificabile" (per i coefficienti di β ).tr(Q)=npJntr(Q)npβ

sarà al massimo se e solo se X X è invertibile.JXX


Interpretazione geometrica

rappresenta la proiezione ortogonale da n -vettori y (che rappresentano la "risposta" o "variabile dipendente") sullo spazio attraversato dalle colonne di X (che rappresentano le "variabili indipendenti" o "covariate"). La differenza Q = 1 - H mostra come scomporre qualsiasi n -vettore y in una somma di vettori y = H ( y ) + Q ( y ) , dove il primo può essere "previsto" da XHnyXQ=1Hny

y=H(y)+Q(y),
X e il secondo è perpendicolare ad esso . Quando il ple colonne di generano uno spazio p- dimensionale (ovvero, non sono collineari), il rango di H è p e il rango di Q è n - p , che riflette le dimensioni aggiuntive n - p della variazione nella risposta che non sono rappresentate all'interno delle variabili indipendenti. La traccia fornisce una formula algebrica per queste dimensioni.XpHpQnpnp

Sfondo di algebra lineare

Un operatore di proiezione su uno spazio vettoriale (come R n ) è una trasformazione lineare P : V V (cioè, un endomorfismo di V ) tale che P 2 = P . Questo rende il suo complemento Q = 1 - P anche un operatore di proiezione, perchéVRnP:VVVP2=PQ=1P

Q2=(1P)2=12P+P2=12P+P=Q.

Tutte le proiezioni fissano ogni elemento delle loro immagini, poiché ogni volta che possiamo scrivere v = P ( w ) per alcuni w V , da cui w = P ( v ) = P 2 ( v ) = P ( P ( v ) ) = P ( w ) .vIm(P)v=P(w)wV

w=P(v)=P2(v)=P(P(v))=P(w).

Associati a qualsiasi endomorfismo di V sono due sottospazi: il suo kernel ker ( P ) = { vPV e la suaimmagine Im ( P ) = { v

ker(P)={vv|P(v)=0}
Ogni vettore v V può essere scritto nella forma v = w + u dove w Im ( P ) e u Ker ( P ) . Possiamo quindi costruire una base E F per V per la quale E Ker ( P ) e F Im
Im(P)={vv|wVP(w)=v}.
vV
v=w+u
wIm(P)uKer(P)EFVEKer(P)di . Quando V è di dimensione finita, la matrice di P in questa base sarà quindi in forma di blocco diagonale, con un blocco (corrispondente all'azione di P su E ) tutti gli zeri e l'altro (corrispondente all'azione di P su F ) uguale allamatrice di identità f by f , dove la dimensione di F è f . La traccia di P è la somma dei valori sulla diagonale e quindi deve essere uguale a f × 1 = f . Questo numero è ilgrado PFIm(P)VPPEPFffFfPf×1=fP: la dimensione della sua immagine.

La traccia di è uguale alla traccia di 1 (pari a n , la dimensione di V ) meno la traccia di P .1P1nVP

Questi risultati possono essere riassunti con l'affermazione che la traccia di una proiezione è uguale al suo rango.


Grazie mille. Ho imparato molte conoscenze estese dalla tua risposta.
zhushun0008,

19

@Dougal ha già dato una risposta, ma eccone un'altra, un po 'più semplice.

Innanzitutto, usiamo il fatto che . Quindi, otteniamo: t r ( Q ) = t r ( I ) - t r ( X ( X X ) - 1 X ) . Ora sono una matrice di identità n × n , quindi ttr(AB)=tr(A)tr(B)

tr(Q)=tr(I)tr(X(XX)1X).
In×n . Ora usiamo il fatto che t r ( A B ) = t r ( B A ) , cioè la traccia è invariante nelle permutazioni cicliche. Quindi, abbiamo: t r ( Q ) = n - t r ( ( X X ) - 1 ( X X ) ) . Quando moltiplichiamo ( X X )tr(I)=ntr(AB)=tr(BA)
tr(Q)=ntr((XX)1(XX)).
con( X X), otteniamo unamatrice di identitàp×p, la cui traccia èp. Quindi, otteniamo: t r (Q)=n-p.(XX)1(XX)p×pp
tr(Q)=np.

6

Supponiamo che e che X sia al livello massimo.npX

Considera la decomposizione compatta del valore singolare , dove Σ R p × p è diagonale e U R n × p , V R p × p hanno U T U = V T V = V V T = I p (ma nota che U U T è al massimo p quindi non può essere I nX=UΣVTΣRp×pURn×p,VRp×pUTU=VTV=VVT=IpUUTpIn). Poi

X(XTX)1XT=UΣVT(VΣUTUΣVT)1VΣUT=UΣVT(VΣ2VT)1VΣUT=UΣVTVΣ2VTVΣUT=UUT.

U2Rn×n-pUn=[UU2]è unitario. Possiamo scrivere

IX(XTX)1XT=UnUnTUUT=Un(In[Ip000])UnT=Un[000Inp]UnT.
This form shows that Q is positive semidefinite, and since it is a valid svd and the singular values are the square of the eigenvalues for a square symmetric matrix, also tells us that Q has eigenvalues 1 (of multiplicity np) and 0 (of multiplicity p). Thus the trace of Q is np.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.