Regressione lineare quando si conosce solo

Supponiamo $X\beta =Y$ .

Non sappiamo $Y$ esattamente, solo la sua correlazione con ogni predittore, $X^\mathrm{t}Y$ .

La soluzione ordinaria dei minimi quadrati (OLS) è $\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y$ e non c'è nessun problema.

Supponiamo però che $X^\mathrm{t}X$ sia quasi singolare (multicollinearità) e che sia necessario stimare il parametro cresta ottimale. Tutti i metodi sembra aver bisogno i valori esatti di $Y$ .

Esiste un metodo alternativo quando si conosce solo $X^\mathrm{t}Y$ ?

regression multicollinearity

— frastagliare
fonte

domanda interessante. Forse una sorta di algoritmo EM funzionerebbe ...

— Probislogic

Non capisco, non puoi usare la convalida incrociata per stimare il parametro cresta ottimale?

— Pardis,

@Pardis: non viene fornita alcuna funzione di perdita nella domanda, quindi non sappiamo cosa significhi ottimale . Riesci a vedere il problema che incontriamo se la funzione di perdita è l'MSE?

— cardinale

@JohnSmith: stai alludendo al punto in cui stavo guidando. Non vi è alcuna indicazione di come misurare "ottimalità". Quello che stai effettivamente facendo è introdurre una diversa metrica (funzione di distanza) per misurare la "qualità" della previsione o dell'adattamento. Abbiamo bisogno di maggiori dettagli dal PO per arrivare molto lontano, sospetto.

— cardinale

@Pardis: trovare le stime non è il problema, come noti. :) Tuttavia, se si decide di eseguire la convalida incrociata, come si intende stimare l'MSE fuori campione, vale a dire, sulla piega a sinistra per ogni iterazione? :)

— cardinale

Risposte:

Questa è una domanda interessante Sorprendentemente, è possibile fare qualcosa sotto certe ipotesi, ma c'è una potenziale perdita di informazioni sulla varianza residua. Dipende da $X$ quanto si perde.

Consideriamo la seguente decomposizione del valore singolare $\newcommand{\t}{^\mathrm{t}}X = UDV\t$ di $X$ con matrice $U$ an $n \times p$ con colonne ortonormali, $D$ una matrice diagonale con valori singolari positivi $d_1 \geq d_2 \geq ... \geq d_p > 0$ in diagonale e $V$ a matrice ortogonale. Quindi le colonne di formano una base ortonormale per lo spazio di colonna di e $p \times p$ $U$ $X$

Z = U^{t} Y = D^{- 1} V^{t} V D U^{t} Y = D^{- 1} V^{t} X^{t} Y

$Z = U\t Y = D^{-1} V\t V D U\t Y = D^{-1} V\t X\t Y$ è il vettore dei coefficienti per la proiezione di

Y

$Y$ su questo spazio di colonna quando espanso nellabase dellacolonna a

U

$U$ Dalla formula vediamo che

Z

$Z$ è calcolabile dalla conoscenza di

X

$X$ e

X^{t} Y

$X\t Y$ soltanto.

Poiché il predittore cresta regressione per un dato può essere calcolato come $\lambda$ vediamo che i coefficienti per il predittore di regressione della cresta nel

\hat{Y} = X (X^{t} X + λ I)^{- 1} X^{t} Y = U D (D^{2} + λ I)^{- 1} D U^{t} Y = U D (D^{2} + λ I)^{- 1} D Z

$\hat{Y} = X(X\t X + \lambda I)^{-1} X\t Y = U D(D^2 + \lambda I)^{-1} D U\t Y = U D(D^2 + \lambda I)^{-1} D Z$

base -column sono

Ora facciamo l'assunto distributivo che

hamedia

dimensionale

e matrice di covarianza

. Quindi

hamedia

dimensionale

e matrice di covarianza

. Se immaginiamo una

indipendente

U

$U$

\hat{Z} = D (D^{2} + λ I)^{- 1} D Z .

$\hat{Z} = D (D^2 + \lambda I)^{-1} D Z.$

Y

$Y$

n

$n$

ξ

$\xi$

σ^{2} I_{n}

$\sigma^2 I_n$

Z

$Z$

p

$p$

U^{t} ξ

$U\t \xi$

σ^{2} I_{p}

$\sigma^2 I_p$

Y^{New}

$Y^{\text{New}}$ con la stessa distribuzione di

(tutto condizionatamente

da qui in poi) corrispondente

Y

$Y$

X

$X$

ha la stessa distribuzione di

ed è indipendente ed

Z^{New} = U^{t} Y^{New}

$Z^{\text{New}} = U\t Y^{\text{New}}$

Z

$Z$

Qui la terza uguaglianza segue dalla ortogonalità

e il quarto dal fatto che

ha colonne ortonormali. La quantità

è un errore di cui non è possibile ottenere alcuna informazione, ma non dipende da

\begin{array}{rcl} E | | Y^{New} - \hat{Y} | |^{2} & = & E | | Y^{New} - U Z^{New} + U Z^{New} - U \hat{Z} | |^{2} \\ = & E | | Y^{New} - U Z^{New} | |^{2} + E | | U Z^{New} - U \hat{Z} | |^{2} \\ = & {Err}_{0} + E | | Z^{New} - \hat{Z} | |^{2} . \end{array}

$\begin{eqnarray*} E ||Y^{\text{New}} - \hat{Y}||^2 &= & E || Y^{\text{New}} - U Z^{\text{New}} + U Z^{\text{New}} - U \hat{Z} ||^2 \\ & = & E || Y^{\text{New}} - U Z^{\text{New}}||^2 + E||U Z^{\text{New}} - U \hat{Z} ||^2 \\ & = & \text{Err}_0 + E||Z^{\text{New}} - \hat{Z} ||^2. \end{eqnarray*}$

Y^{New} - U Z^{New}

$Y^{\text{New}} - U Z^{\text{New}}$

U Z^{New} - U \hat{Z}

$U Z^{\text{New}} - U \hat{Z}$

U

$U$

{Err}_{0}

$\text{Err}_0$

λ

$\lambda$ o. Per ridurre al minimo l'errore di previsione sul lato sinistro, è necessario ridurre al minimo il secondo termine sul lato destro.

Con un calcolo standard Quiè noto come i gradi di libertà effettivi per la regressione della cresta con il parametro. Uno stimatore imparziale diè

\begin{array}{rcl} E | | Z^{New} - \hat{Z} | |^{2} & = & E | | Z - \hat{Z} | |^{2} + 2 \sum_{i = 1}^{p} cov (Z_{i}, {\hat{Z}}_{i}) \\ = & E | | Z - \hat{Z} | |^{2} + 2 σ^{2} \underset{df (λ)}{\underset{⏟}{\sum_{i = 1}^{p} \frac{d_{i}^{2}}{d_{i}^{2} + λ}}} . \end{array}

$\begin{eqnarray*} E||Z^{\text{New}} - \hat{Z} ||^2 &= & E||Z - \hat{Z}||^2 + 2 \sum_{i=1}^p \text{cov}(Z_i, \hat{Z}_i) \\ & = & E||Z - \hat{Z}||^2 + 2 \sigma^2 \underbrace{\sum_{i=1}^p \frac{d_i^2}{d_i^2 + \lambda}}_{\text{df}(\lambda)}. \end{eqnarray*}$

df (λ)

$\text{df}(\lambda)$

λ

$\lambda$

E | | Z - \hat{Z} | |^{2}

$E||Z - \hat{Z}||^2$

err (λ) = | | Z - \hat{Z} | |^{2} = \sum_{i = 1}^{p} {(1 - \frac{d_{i}^{2}}{d_{i}^{2} + λ})}^{2} Z_{i}^{2} .

$\text{err}(\lambda) = ||Z - \hat{Z}||^2 = \sum_{i=1}^p \left(1 - \frac{d_i^2}{d_i^2 + \lambda}\right)^2 Z_i^2.$

err (λ) + 2 σ^{2} df (λ)

$\text{err}(\lambda) + 2 \sigma^2 \text{df}(\lambda)$

E | | Z^{New} - \hat{Z} | |^{2}

$E||Z^{\text{New}} - \hat{Z} ||^2$

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$

E | | Z - \hat{Z} | |^{2} = σ^{2} (p - \underset{d (λ)}{\underset{⏟}{\sum_{i = 1}^{p} \frac{d_{i}^{2}}{d_{i}^{2} + λ} (2 - \frac{d_{i}^{2}}{d_{i}^{2} + λ})}}) + bias (λ)^{2} .

$E||Z - \hat{Z}||^2 = \sigma^2\left(p - \underbrace{\sum_{i=1}^p \frac{d_i^2}{d_i^2 + \lambda}\left(2 - \frac{d_i^2}{d_i^2 + \lambda}\right)}_{\text{d}(\lambda)}\right) + \text{bias}(\lambda)^2.$ Thus if it is possible to choose

λ

$\lambda$ so small that the squared bias can be ignored we can try to estimate

σ^{2}

$\sigma^2$ as

{\hat{σ}}^{2} = \frac{1}{p - d (λ)} | | Z - \hat{Z} | |^{2} .

$\hat{\sigma}^2 = \frac{1}{p-\text{d}(\lambda)} ||Z - \hat{Z}||^2.$ If this will work depends a lot on

X

$X$ .

For some details see Section 3.4.1 and Chapter 7 in ESL or perhaps even better Chapter 2 in GAM.

— NRH
fonte

Define $β$ as in the question and $β(λ,K)=[(X^TX)_{KK}+λI]^{−1}(X^TY)_K$ for various parameters $\lambda$ and sets $K$ of sample labels. Then $e(λ,K):=\|Xβ(λ,K)-Y\|^2-\|Xβ-Y\|^2$ is computable since the unknown $\|Y\|^2$ drops out when expanding both norms.

This leads to the following algorithm:

Compute the $e(λ,K)$ for some choices of the training set $K$ .
Plot the results as a function of $\lambda$ .
Accept a value of $\lambda$ where the plot is flattest.
Use $β^*=[X^TX+λI]^{−1}X^TY$ as the final estimate.

— Arnold Neumaier
fonte

I'm guessing "where the plot is flattest" will be at

λ

$\lambda$ very small, like roughly 0 :)

— jbowman

@jbowman: This will happen only if the problem is well-conditioned and needs no regularization, then

λ = 0

$\lambda=0$ is indeed adequate. In the ill-conditioned case, the prediction of the items outside

K

$K$ will be poor because of overfitting, and

e (λ, K)

$e(\lambda,K)$ will therefore be large.

— Arnold Neumaier

@ArnoldNeumaier:

(X^{T} Y)_{K}

$(X^TY)_K$ isn't computable. We only know the correlation with each predictor.

(X^{T} Y)

$(X^TY)$ is in the "predictor domain", not in the "Y domain" (If N is the sample size and p the number of predictors, we only have p values, one for each predictor).

— Jag

@Jag: Then there is not enough information for selecting

λ

$\lambda$ . But

X^{T} Y

$X^TY$ must have been collected somehow. If during its collection you partition the sample into

k

$k$ batches and assemble the

X^{T} Y

$X^TY$ separately for each batch then one can reserve one batch each for cross validation.

— Arnold Neumaier

@ArnoldNeumaier:

X^{T} Y

$X^TY$ are externally given, don't collected.

— Jag