Regressione lineare quando si conosce solo


13

Supponiamo Xβ=Y .

Non sappiamo Y esattamente, solo la sua correlazione con ogni predittore, XtY .

La soluzione ordinaria dei minimi quadrati (OLS) è β=(XtX)1XtY e non c'è nessun problema.

Supponiamo però che XtX sia quasi singolare (multicollinearità) e che sia necessario stimare il parametro cresta ottimale. Tutti i metodi sembra aver bisogno i valori esatti di Y .

Esiste un metodo alternativo quando si conosce solo XtY ?


domanda interessante. Forse una sorta di algoritmo EM funzionerebbe ...
Probislogic

Non capisco, non puoi usare la convalida incrociata per stimare il parametro cresta ottimale?
Pardis,

@Pardis: non viene fornita alcuna funzione di perdita nella domanda, quindi non sappiamo cosa significhi ottimale . Riesci a vedere il problema che incontriamo se la funzione di perdita è l'MSE?
cardinale

1
@JohnSmith: stai alludendo al punto in cui stavo guidando. Non vi è alcuna indicazione di come misurare "ottimalità". Quello che stai effettivamente facendo è introdurre una diversa metrica (funzione di distanza) per misurare la "qualità" della previsione o dell'adattamento. Abbiamo bisogno di maggiori dettagli dal PO per arrivare molto lontano, sospetto.
cardinale

1
@Pardis: trovare le stime non è il problema, come noti. :) Tuttavia, se si decide di eseguire la convalida incrociata, come si intende stimare l'MSE fuori campione, vale a dire, sulla piega a sinistra per ogni iterazione? :)
cardinale

Risposte:


8

Questa è una domanda interessante Sorprendentemente, è possibile fare qualcosa sotto certe ipotesi, ma c'è una potenziale perdita di informazioni sulla varianza residua. Dipende da X quanto si perde.

Consideriamo la seguente decomposizione del valore singolare X=UDVt di X con matrice U an n×p con colonne ortonormali, D una matrice diagonale con valori singolari positivi d1d2...dp>0 in diagonale e V a matrice ortogonale. Quindi le colonne di U formano una base ortonormale per lo spazio di colonna di X e Z = U t Y = D - 1 Vp×pUX

Z=UtY=D1VtVDUtY=D1VtXtY
è il vettore dei coefficienti per la proiezione diYsu questo spazio di colonna quando espanso nellabase dellacolonna aUDalla formula vediamo cheZè calcolabile dalla conoscenza diXeXtY soltanto.

Poiché il predittore cresta regressione per un dato può essere calcolato come Y = X ( X t X + λ I ) - 1 X t Y = U D ( D 2 + λ I ) - 1 D U t Y = U D ( D 2 + λ I )λ vediamo che i coefficienti per il predittore di regressione della cresta nel

Y^=X(XtX+λI)1XtY=UD(D2+λI)1DUtY=UD(D2+λI)1DZ
base -column sono Z = D ( D 2 + λ I ) - 1 D Z . Ora facciamo l'assunto distributivo che Y hamedia n- dimensionale ξ e matrice di covarianza σ 2 I n . Quindi Z hamedia p- dimensionale U t ξ e matrice di covarianza σ 2 I p . Se immaginiamo una Y nuova indipendenteU
Z^=D(D2+λI)1DZ.
Ynξσ2InZpUtξσ2IpYNew con la stessa distribuzione di (tutto condizionatamente X da qui in poi) corrispondente Z Nuovo = U t YYX ha la stessa distribuzione diZed è indipendente ed E | | Y Nuovo - Y | | 2ZNew=UtYNewZ Qui la terza uguaglianza segue dalla ortogonalitàYNuovo-UZNuovoeUZNuovo-U Z e il quarto dal fatto cheUha colonne ortonormali. La quantitàErr0è un errore di cui non è possibile ottenere alcuna informazione, ma non dipende daλ
E||YNewY^||2=E||YNewUZNew+UZNewUZ^||2=E||YNewUZNew||2+E||UZNewUZ^||2=Err0+E||ZNewZ^||2.
YNewUZNewUZNewUZ^UErr0λo. Per ridurre al minimo l'errore di previsione sul lato sinistro, è necessario ridurre al minimo il secondo termine sul lato destro.

Con un calcolo standard Quidf(λ)è noto come i gradi di libertà effettivi per la regressione della cresta con il parametroλ. Uno stimatore imparziale diE| | Z-Z| | 2è err(λ)=| | Z-Z| | 2=pi=-d2

E||ZNewZ^||2=E||ZZ^||2+2i=1pcov(Zi,Z^i)=E||ZZ^||2+2σ2i=1pdi2di2+λdf(λ).
df(λ)λE||ZZ^||2
err(λ)=||ZZ^||2=i=1p(1di2di2+λ)2Zi2.

err(λ)+2σ2df(λ)
E||ZNewZ^||2σ2σ2σ2

σ2

E||ZZ^||2=σ2(pi=1pdi2di2+λ(2di2di2+λ)d(λ))+bias(λ)2.
Thus if it is possible to choose λ so small that the squared bias can be ignored we can try to estimate σ2 as
σ^2=1pd(λ)||ZZ^||2.
If this will work depends a lot on X.

For some details see Section 3.4.1 and Chapter 7 in ESL or perhaps even better Chapter 2 in GAM.


0

Define β as in the question and β(λ,K)=[(XTX)KK+λI]1(XTY)K for various parameters λ and sets K of sample labels. Then e(λ,K):=Xβ(λ,K)Y2XβY2 is computable since the unknown Y2 drops out when expanding both norms.

This leads to the following algorithm:

  • Compute the e(λ,K) for some choices of the training set K.
  • Plot the results as a function of λ.
  • Accept a value of λ where the plot is flattest.
  • Use β=[XTX+λI]1XTY as the final estimate.

1
I'm guessing "where the plot is flattest" will be at λ very small, like roughly 0 :)
jbowman

@jbowman: This will happen only if the problem is well-conditioned and needs no regularization, then λ=0 is indeed adequate. In the ill-conditioned case, the prediction of the items outside K will be poor because of overfitting, and e(λ,K) will therefore be large.
Arnold Neumaier

3
@ArnoldNeumaier: (XTY)K isn't computable. We only know the correlation with each predictor. (XTY) is in the "predictor domain", not in the "Y domain" (If N is the sample size and p the number of predictors, we only have p values, one for each predictor).
Jag

@Jag: Then there is not enough information for selecting λ. But XTY must have been collected somehow. If during its collection you partition the sample into k batches and assemble the XTY separately for each batch then one can reserve one batch each for cross validation.
Arnold Neumaier

@ArnoldNeumaier: XTY are externally given, don't collected.
Jag
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.