Stai dimostrando che lo stimatore OLS è equivalente alla scala?


11

Non ho una definizione formale di equivalenza di scala, ma ecco cosa dice Introduzione all'apprendimento statistico a pag. 217:

I coefficienti standard dei minimi quadrati ... sono equivalenti alla scala : moltiplicare Xj per una costante porta semplicemente a un ridimensionamento delle stime del coefficiente dei minimi quadrati per un fattore di .c1/c

Per semplicità, supponiamo che il modello lineare generale , dove \ mathbf {y} \ in \ mathbb {R} ^ N , \ mathbf {X } è una matrice N \ times (p + 1) (dove p + 1 <N ) con tutte le voci in \ mathbb {R} , \ boldsymbol \ beta \ in \ mathbb {R} ^ {p + 1} e \ boldsymbol \ epsilon è un vettore N- dimensionale di variabili casuali a valore reale con \ mathbb {E} [\ boldsymbol \ epsilon] = \ mathbf {0} _ {N \ times 1} .y=Xβ+ϵyRNXN×(p+1)p+1<NRβRp+1ϵNE[ϵ]=0N×1

Dalla stima OLS, sappiamo che se X ha un rango (colonna) completo,

β^X=(XTX)1XTy.
Supponiamo di aver moltiplicato una colonna di X , diciamo xk per alcuni k{1,2,,p+1} , da una costante c0 . Ciò equivarrebbe alla matrice
X[111c11]S=[x1x2cxkxp+1]X~
dove tutte le altre voci della matrice S sopra sono 0 , e c è nella k voce della diagonale di S . Poi,X~X~poiché la nuova matrice del design è
β^X~=(X~TX~)1X~Ty.
Dopo alcuni lavori, si può dimostrare che
X~TX~=[x1Tx1x1Tx2cx1Txkx1Txp+1x2Tx1x2Tx2cx2Txkx2Txp+1cxkTx1cxkTx2c2xkTxkcxkTxp+1xp+1Tx1xp+1Tx2cxp+1Txp+1xp+1Txp+1]
\ cdots & \ mathbf {x} _ {p + 1} ^ {T} \ mathbf {x} _ {p + 1} \\ \ end {bmatrix} e
X~Ty=[X1TyX2TycXKTyXp+1Ty]
Come posso passare da qui per mostrare il reclamo sopra citato (ovvero, quel β^X~=1cβ^X )? Non mi è chiaro come calcolare (X~TX~)-1 .

Penso che il tuo non sia corretto, manca un moltiplicatore in una riga intera. cX~TX~c
Firebug

1
Inoltre, tieni presente che l'affermazione è , non tutti . ββ^k,new=1cβ^k,oldβ
Firebug

@Firebug Sì, l'ho appena capito. Sto postando una risposta.
Clarinetto

2
Puoi sostituire tutta questa algebra con un'analisi delle unità molto più semplice, perché moltiplicare per cambia semplicemente la sua unità di misura, e quindi il cambiamento corrispondente nelle unità associate al suo coefficiente è dividerlo per . Ciò non dimostra che debba essere diviso per , sfortunatamente. Tuttavia, questa catena di pensieri potrebbe ricordarci che la regressione multipla può essere effettuata da una successione di regressioni contro un regressore alla volta, dove è chiaro che è diviso per , e quindi la prova è completa. c β j c β j c β j cXjcβjcβ^jcβ^jc
whuber

@whuber, mentre l'intuizione per il risultato è chiara, sembra che ci sia semplicemente un po 'di algebra nel fornire una prova. Dopotutto, il fattore di ridimensionamento deve essere invertito. c
user795305

Risposte:


11

Poiché l'affermazione nella citazione è una raccolta di dichiarazioni sul riscalare le colonne di , potresti anche provarle tutte in una volta. In effetti, non serve altro lavoro per dimostrare una generalizzazione dell'asserzione:X

Quando viene moltiplicato a destra per una matrice invertibile , la nuova stima del coefficiente è uguale a moltiplicata a sinistra per .A β AXUNβ^UNA-1β^UN-1

Gli unici fatti algebrici di cui hai bisogno sono (quelli facilmente comprovati e noti) che per qualsiasi matrice e per matrici invertibili e . (Una versione più sottile di quest'ultima è necessaria quando si lavora con inversioni generalizzate: per invertibile e e qualsiasi , . ) A B ( A B ) - 1 = B - 1 A - 1 A B A B X ( A X B ) - = B - 1 X(UNB)'=B'UN'UNB(UNB)-1=B-1UN-1UNBUNBX(UNXB)-=B-1X-UN-1


Prova algebrica :

β^UN=((XUN)'((XUN))-(XUN)'y=UN-1(X'X)-(UN')-1UN'y=UN-1β^,

QED. (Affinché questa dimostrazione sia completamente generale, il apice si riferisce a un inverso generalizzato.)-


Prova per geometria :

Date le basi ed di e , rispettivamente, rappresenta una trasformazione lineare da a . La moltiplicazione a destra di per può essere considerata tale da lasciare fissa questa trasformazione ma cambiando in (ovvero, nelle colonne di ). Sotto quel cambio di base, la rappresentazione di qualsiasi vettore deve cambiare tramite la moltiplicazione a sinistra di ,E n R n R p X R p R n X A E p A E p A ßR p A - 1EpEnRnRpXRpRnXUNEpUNEpUNβ^RpUN-1QED .

(Questa prova funziona, non modificata, anche quando non è invertibile.)X'X


La citazione si riferisce specificamente al caso delle matrici diagonali con per e .A i i = 1 i j A j j = cUNUNioio=1iojUNjj=c


Connessione con i minimi quadrati

L'obiettivo qui è quello di utilizzare i primi principi per ottenere il risultato, con il principio che è quello dei minimi quadrati: stimare i coefficienti che minimizzano la somma dei quadrati dei residui.

Ancora una volta, dimostrare una (enorme) generalizzazione non è più difficile ed è piuttosto rivelatore. Supponiamo che sia una mappa (lineare o no) di spazi vettoriali reali e supponiamo che sia una funzione valutata su . Lascia che sia l'insieme (possibilmente vuoto) di punti per i quali è minimizzato. Q W n U V p v Q ( ϕ ( v ) )

φ:VpWn
QWnUVpvQ(φ(v))

Risultato: , che è determinato esclusivamente da e , non dipende da alcuna scelta della base utilizzata per rappresentare i vettori in .Q ϕ E p V pUQφEpVp

Prova: QED.

Non c'è niente da dimostrare!

Applicazione del risultato: Sia una forma quadratica semidefinita positiva su , sia , e supponiamo che sia una mappa lineare rappresentata da quando le basi di e sono scelti. Definire . Scegli una base di e supponi che sia la rappresentazione di alcuni in quella base. Questo è il minimo dei quadrati : minimizza la distanza al quadrato . PerchéR n y R n φ X V p = R p W n = R n Q ( x ) = F ( y , x ) R p β v U x = X β F ( y , x ) X R p X A β A - 1FRnyRnφXVp=RpWn=RnQ(x)=F(y,x)Rpβ^vUx=Xβ^F(y,x)Xè una mappa lineare, modificare la base di corrisponde a destra-moltiplicando da alcuni invertibile matrice . Ciò moltiplicherà a sinistra per , QED .RpXAβ^A1


6

Definisci lo stimatore dei minimi quadrati , dove la matrice di progettazione è al completo. Supponendo che la matrice di ridimensionamento sia invertibile. XRn×pSRp×pβ^=argminβRpyXβ22XRn×pSRp×p

Definisci questo nuovo stimatore in scala . Ciò significa che per tutti . Definendo , possiamo riscrivere questa disuguaglianza visualizzata sopra come per tutti . Pertanto e ne consegue che lo stimatore dei minimi quadrati A causa della invertibilità della matrice di ridimensionamentoy-XS ˜ α 2 2 <y-XSα 2 2 α ˜ α ˜ β =S ˜ αy-X ˜ β 2 2 <y-α~=argminαRpyXSα22

yXSα~22<yXSα22
αα~β~=Sα~ β ~ β ~ β = arg min β R py - X β 2 2 β = ~ β = S ~ α . S
y-Xβ~22<y-Xβ22
ββ~β~=argminβRpy-Xβ22
β^=β~=Sα~.
S, segue che . Nel nostro caso, questo differisce solo da per la voce ridimensionata da .ß kth1α~=S-1β^β^Kth1c

1
Non ho familiarità come dovrei lavorare con e funzioni simili - potresti spiegare il passaggio dalla tua seconda alla terza linea di equazioni? arg min
Clarinetto

L'ho scritto in modo leggermente diverso, il che dovrebbe rendere i passaggi più chiari.
user795305

Questo è davvero intelligente. (+1)
Clarinetto

4

L'ho capito dopo aver pubblicato la domanda. Se il mio lavoro è corretto, tuttavia, ho interpretato erroneamente l'affermazione. Il si verifica solo su un componente di corrispondente alla colonna di viene moltiplicata per . βXc1cβXc

Notare che , nella notazione sopra, è una matrice diagonale, simmetrica e ha inversa (perché è diagonale) Nota che è una matrice . Supponiamo che ( p + 1 ) × ( p + 1 ) S - 1 = [ 1S(p+1)×(p+1)( ˜ X T ˜ X )-1(p+1)×(p+1)(XTX)-1=[ z 1 z 2z kz p + 1 ]. ( ˜ X T ˜ X )-1=[(XS)

S1=[1111c11].
(X~TX~)1(p+1)×(p+1)
(XTX)1=[z1z2zkzp+1].
(X~TX~)1=[(XS)TXS]1=(STXTXS)1=(SXTXS)1=S1(XTX)1S1.
Quindi, e moltiplicandolo per ha un effetto simile a quello che ha fatto moltiplicando per - rimane lo stesso, viene moltiplicato perS-1XS1
S1(XTX)1=[z1z21czkzp+1]
S1XS11czk1c : Pertanto, Β ~ X
S1(XTX)1S1=[z1z21c2zkzp+1].
β^X~=S1(XTX)1S1(XS)Ty=[z1z21c2zkzp+1][x1Tyx2TycxkTyxp+1Ty]=[z1x1Tyz2x2Ty1czkxkTyzp+1xp+1Ty]
come desiderato.

C'è un refuso in . Devi trasporre . ( X S )S-1(XTX)-1S-1(XS)y(XS)
JohnK,

3

La prova più tangibile di sempre

Inizi con la tua equazione lineare: Ora vuoi cambiare la scala dei tuoi regressori, magari convertire dal sistema metrico a Imperiale, conosci chilogrammi in libbre, metri in iarde ecc. Quindi, vieni su con la matrice di conversione dove ogni è il coefficiente di conversione per variabile (colonna) in matrice disegno .

Y=Xβ+ε
S=dioun'g(S1,S1,...,Sn)SioioX

Riscriviamo l'equazione:

Y=(XS)(S-1β)+ε

Ora è abbastanza chiaro che il ridimensionamento è la proprietà della linearità della tua equazione, non del metodo OLS di stima dei coefficienti. Indipendentemente dal metodo di stima con equazione lineare, si ha che quando i regressori vengono ridimensionati come nuovi coefficienti devono essere ridimensionati comeXSS-1β

Prova di Algebra solo per OLS

Il ridimensionamento è questo:

Z=X*dioun'g(S1,S2,...,Sn)
dove fattore di scala di ogni variabile (colonna), e una versione in scala . Chiamiamo la matrice in scala diagonale . Lo stimatore OLS è Inseriamo la matrice in scala anziché e usiamo un po 'di algebra di matrice : Quindi, vedi come il nuovo coefficiente è semplicemente il vecchio coefficiente ridimensionato, come previsto.SioZXSdioun'g(S1,S2,...,Sn)
β^=(XTX)-1XTY
ZX
(ZTZ)-1ZTY=(STXTXS)-1STXTY=S-1(XTX)-1S-1SXTY=S-1(XTX)-1XTY=S-1β^

2
Mi piacciono i tuoi approcci, ma non sono convinto dalla "prova più banale di sempre". Hai implicitamente assunto, e devi ancora dimostrare, che il modello riscritto deve avere lo stesso adattamento dell'originale. Per dirlo più rigorosamente: se consideriamo una procedura di adattamento come una funzione , dove è l'insieme di tutti i dati possibili (che potremmo scrivere come coppia ordinataδ:MRpM(X,Y) ) e è l'insieme di tutte le possibili stime dei coefficienti, quindi è necessario dimostrare che per tutti invertibile , tutto , e tutto . (Questo non è sempre vero!)Rpδ(X,Y)=S-1δ(XS,Y)SXY
whuber

@whuber, in realtà è il contrario: la ragionevole procedura di adattamento dovrebbe soddisfare questa condizione, altrimenti un semplice cambio di unità di misura produrrà una previsione / stima diversa. aggiornerò la mia risposta, ci penserò un po '
Aksakal

Sono d'accordo - ma posso immaginare eccezioni nei casi in cui non è di rango massimo. Questo è ciò che mi ha suggerito che la situazione non è così banale come potrebbe sembrare. X
whuber

3
compagno imperiale , non reale ...: D (bella risposta, +1)
usεr11852

@ usεr11852, ho imparato qualcosa oggi :)
Aksakal,

2

Un modo semplice per ottenere questo risultato è ricordare che è la proiezione di nello spazio colonna diy^yX. β^ è il vettore di coefficienti quando è espresso come lineare combinazione delle colonne di . Se una colonna è ridimensionata di un fattore , è chiaro che il coefficiente corrispondente nella combinazione lineare deve essere ridimensionato di .y^Xc1/c

Sia i valori di e i valori della soluzione OLS quando una colonna viene ridimensionata diBioβ^un'ioc.

B1X1+...+BioXio+...+BmXm=un'1X1+...un'io(cXio)+...+un'nXn

implica che dove e , supponendo che le colonne di siano linearmente indipendenti.Bj=un'jjioBio=un'iocX

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.