Questa è una domanda interessante Sorprendentemente, è possibile fare qualcosa sotto certe ipotesi, ma c'è una potenziale perdita di informazioni sulla varianza residua. Dipende da X quanto si perde.
Consideriamo la seguente decomposizione del valore singolare X=UDVt di X con matrice U an n×p con colonne ortonormali, D una matrice diagonale con valori singolari positivi d1≥d2≥...≥dp>0 in diagonale e V a matrice ortogonale. Quindi le colonne di U formano una base ortonormale per lo spazio di colonna di X e
Z = U t Y = D - 1 Vp×pUX
Z=UtY=D−1VtVDUtY=D−1VtXtY
è il vettore dei coefficienti per la proiezione di
Ysu questo spazio di colonna quando espanso nellabase dellacolonna a
UDalla formula vediamo che
Zè calcolabile dalla conoscenza di
Xe
XtY soltanto.
Poiché il predittore cresta regressione per un dato può essere calcolato come
Y = X ( X t X + λ I ) - 1 X t Y = U D ( D 2 + λ I ) - 1 D U t Y = U D ( D 2 + λ I )λ
vediamo che i coefficienti per il predittore di regressione della cresta nel
Y^=X(XtX+λI)−1XtY=UD(D2+λI)−1DUtY=UD(D2+λI)−1DZ
base -column sono
Z = D ( D 2 + λ I ) - 1 D Z .
Ora facciamo l'assunto distributivo che
Y hamedia
n- dimensionale
ξ e matrice di covarianza
σ 2 I n . Quindi
Z hamedia
p- dimensionale
U t ξ e matrice di covarianza
σ 2 I p . Se immaginiamo una
Y nuova indipendente
UZ^=D(D2+λI)−1DZ.
Ynξσ2InZpUtξσ2IpYNew con la stessa distribuzione di
(tutto condizionatamente
X da qui in poi) corrispondente
Z Nuovo = U t YYX ha la stessa distribuzione di
Zed è indipendente ed
E | | Y Nuovo - Y | | 2ZNew=UtYNewZ
Qui la terza uguaglianza segue dalla ortogonalità
YNuovo-UZNuovoe
UZNuovo-U Z e il quarto dal fatto che
Uha colonne ortonormali. La quantità
Err0è un errore di cui non è possibile ottenere alcuna informazione, ma non dipende da
λE||YNew−Y^||2===E||YNew−UZNew+UZNew−UZ^||2E||YNew−UZNew||2+E||UZNew−UZ^||2Err0+E||ZNew−Z^||2.
YNew−UZNewUZNew−UZ^UErr0λo. Per ridurre al minimo l'errore di previsione sul lato sinistro, è necessario ridurre al minimo il secondo termine sul lato destro.
Con un calcolo standard
Quidf(λ)è noto come i gradi di libertà effettivi per la regressione della cresta con il parametroλ. Uno stimatore imparziale diE| | Z-Z| | 2è
err(λ)=| | Z-Z| | 2=p∑i=-d2
E||ZNew−Z^||2==E||Z−Z^||2+2∑i=1pcov(Zi,Z^i)E||Z−Z^||2+2σ2∑i=1pd2id2i+λdf(λ).
df(λ)λE||Z−Z^||2err(λ)=||Z−Z^||2=∑i=1p(1−d2id2i+λ)2Z2i.
err(λ)+2σ2df(λ)
E||ZNew−Z^||2σ2σ2σ2
σ2
E||Z−Z^||2=σ2⎛⎝⎜⎜⎜⎜⎜p−∑i=1pd2id2i+λ(2−d2id2i+λ)d(λ)⎞⎠⎟⎟⎟⎟⎟+bias(λ)2.
Thus if it is possible to choose
λ so small that the squared bias can be ignored we can try to estimate
σ2 as
σ^2=1p−d(λ)||Z−Z^||2.
If this will work depends a lot on
X.
For some details see Section 3.4.1 and Chapter 7 in ESL or perhaps even better Chapter 2 in GAM.