Soluzione in forma chiusa al problema del lazo quando la matrice di dati è diagonale

$\newcommand{\diag}{\operatorname{diag}}$ Abbiamo il problema:

min_{w \in R^{d}} (\frac{1}{n} \sum_{i = 1}^{n} {(⟨ w, x_{i} ⟩ - y_{i})}^{2} + 2 λ | | w | |_{1}),

$\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),$ presupponendo che:

\sum_{i = 1}^{n} x_{i} x_{i}^{T} = diag (σ_{1}^{2}, . . ., σ_{d}^{2}) .

$\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2).$

Esiste una soluzione a forma chiusa in questo caso?

Ho questo:

(X^{T} X)^{- 1} = diag (σ_{1}^{- 2}, . . ., σ_{d}^{- 2}),

$(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right),$ e quindi penso che la risposta sia :

w^{j} = y^{j} max {0, 1 - λ \frac{n}{| y^{j} |}},

$w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\},$ per

y^{j} = \sum_{i = 1}^{n} \frac{y_{i} x_{i}^{j}}{σ_{i}^{2}}

$y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2}$ , ma non ne sono sicuro.

— Arthur D.
fonte

Esaminerò la derivazione di @ cardinale della soluzione di lazo in forma chiusa quando , trovato qui , con lievi modifiche. $X^T X = I$

che per tutti . Questo è giustificato perché se abbiamo un questo ci dice che l' colonna di è tutto 0, e penso che sia ragionevole escludere un caso del genere. Ti lascio . Si noti che ciò significa anche che è al completo e che la soluzione OLS è definita in modo univoco. $\sigma^2_i > 0$ $i$ $\sigma^2_i = 0$ $i$ $X$ $X^T X = D$ $X$ $\hat \beta$

Modificherò anche la tua notazione per adattarla meglio alla risposta a cui mi riferisco. A tal fine, risolverò

{\hat{β}}_{λ} = {argmin}_{β \in R^{p}} \frac{1}{2} | | Y - X β | |_{2}^{2} + λ | | β | |_{1} .

$\hat \beta_\lambda = \text{argmin}_{\beta \in \mathbb R^p } \frac 12 \vert \vert Y - X\beta\vert \vert^2_2 + \lambda \vert \vert \beta \vert \vert_1.$

Questo è identico al tuo problema, ma posso aggiungere ulteriori dettagli qui se lo desideri.

Seguendo la derivazione di @ cardinale, dobbiamo risolvere

{\hat{β}}_{λ} = argmin \frac{1}{2} (Y^{T} Y - 2 Y^{T} X β + β^{T} X^{T} X β) + λ | | β | |_{1}

$\hat \beta_\lambda = \text{argmin } \frac 12 (Y^T Y - 2 Y^T X \beta + \beta^T X^T X \beta) + \lambda \vert \vert \beta \vert \vert_1$

= argmin - Y^{T} X β + \frac{1}{2} β^{T} D β + λ | | β | |_{1} .

$= \text{argmin } -Y^T X \beta + \frac 12 \beta^T D \beta + \lambda \vert \vert \beta \vert \vert_1.$

Notando che la soluzione OLS è , abbiamo quel $\hat \beta = (X^T X)^{-1} X^T Y = D^{-1}X^T Y$

{\hat{β}}_{λ} = argmin - {\hat{β}}^{T} D β + \frac{1}{2} β^{T} D β + λ | | β | |_{1}

$\hat \beta_\lambda = \text{argmin } -\hat \beta^T D \beta + \frac 12 \beta^T D \beta + \lambda \vert \vert \beta \vert \vert_1$

= argmin \sum_{j = 1}^{p} - {\hat{β}}_{j} β_{j} σ_{j}^{2} + \frac{σ_{j}^{2}}{2} β_{j}^{2} + λ | β_{j} | .

$= \text{argmin } \sum_{j=1}^p -\hat \beta_j \beta_j \sigma^2_j + \frac{\sigma^2_j}2 \beta_j^2 + \lambda | \beta_j|.$

Stiamo ottimizzando su ciascun separatamente, quindi possiamo risolvere ogni termine di questa somma separatamente. Ciò significa che dobbiamo ridurre al minimo dove $\beta_j$ $\mathcal L_j$

L_{j} = - {\hat{β}}_{j} β_{j} σ_{j}^{2} + \frac{σ_{j}^{2}}{2} β_{j}^{2} + λ | β_{j} | .

$\mathcal L_j = -\hat \beta_j \beta_j \sigma^2_j + \frac{\sigma^2_j}2 \beta_j^2 + \lambda | \beta_j|.$

Seguendo un argomento completamente analogo alla risposta collegata, troviamo che

({\hat{β}}_{λ})_{j} = s g n ({\hat{β}}_{j}) {(| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}})}^{+} .

$(\hat \beta_\lambda)_j = \mathrm{sgn}(\hat \beta_j) \left(|\hat \beta_j| - \frac{\lambda}{\sigma^2_j}\right)^+.$

Inoltre, quindi abbiamo $\hat \beta = D^{-1} X^T Y \implies \hat \beta_j = \frac{X_j^T Y}{\sigma_j^2}$

{(| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}})}^{+} = \frac{1}{σ_{j}^{2}} {(| X_{j}^{T} Y | - λ)}^{+}

$\left(|\hat \beta_j| - \frac{\lambda}{\sigma^2_j}\right)^+ = \frac 1 {\sigma^2_j} \left(|X_j^T Y| - \lambda\right)^+$

quindi si scopre che un predittore viene azzerato esattamente quando sarebbe se la matrice di design fosse ortonormale, non solo ortogonale. Quindi possiamo vedere che in questo caso con , la selezione della variabile non è diversa rispetto a se , ma i coefficienti effettivi sono ridimensionati in base alle varianze del predittore. $X_j$ $X^T X = D \neq I$ $X^T X = I$ $\hat \beta_\lambda$

Come nota finale, trasformerò questa soluzione in una simile alla tua, il che significa che dobbiamo moltiplicare per qualcosa per ottenere . Se allora abbiamo quello $\hat \beta$ $\hat \beta_\lambda$ $(\hat \beta_\lambda)_j \neq 0$

({\hat{β}}_{λ})_{j} = sgn ({\hat{β}}_{j}) (| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}}) = {\hat{β}}_{j} - sgn ({\hat{β}}_{j}) \frac{λ}{σ_{j}^{2}}

$(\hat \beta_\lambda)_j = \text{sgn}(\hat \beta_j) \left( \vert \hat \beta_j \vert - \frac{\lambda}{\sigma^2_j} \right) = \hat \beta_j - \text{sgn}(\hat \beta_j) \frac{\lambda}{\sigma^2_j}$

= {\hat{β}}_{j} (1 - \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |})

$= \hat \beta_j \left( 1 - \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \right)$

poiché . $\frac{a}{\vert a \vert} = \text{sgn}(a)$

Notando che esattamente quando $(\hat \beta_\lambda)_j = 0$

| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}} \leq 0 ⟺ | {\hat{β}}_{j} | \leq \frac{λ}{σ_{j}^{2}} ⟺ 1 \leq \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |} ⟺ 1 - \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |} \leq 0,

$\vert \hat \beta_j \vert - \frac{\lambda}{\sigma^2_j} \leq 0 \iff \vert \hat \beta_j \vert \leq \frac{\lambda}{\sigma^2_j} \iff 1 \leq \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \iff 1 - \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \leq 0,$

vediamo che potremmo in alternativa esprimere come $\hat \beta_\lambda$

({\hat{β}}_{λ})_{j} = {\hat{β}}_{j} {(1 - \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |})}^{+} .

$(\hat \beta_\lambda)_j = \hat \beta_j \left( 1 - \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \right)^+.$

Quindi questo è molto vicino a quello che avevi ma non esattamente lo stesso.

Mi piace sempre controllare le derivazioni come questa rispetto alle librerie ben note, se possibile, quindi ecco un esempio in R:

## generating `x`
set.seed(1)
n = 1000
p = 5
sigma2s = 1:p
x = svd(matrix(rnorm(n * p), n, p))$u %*% diag(sqrt(sigma2s))

## check this
# t(x) %*% x

## generating `y`
betas = 1:p
y = x %*% betas + rnorm(nrow(x), 0, .5)

lambda = 2

## using a well-known library to fit lasso
library(penalized)
penalized(y, x, lambda1 = lambda)@penalized


## using closed form solution
betahat = lm(y ~ x - 1)$coef
ifelse(betahat > 0, 1, -1) * sapply(abs(betahat) - lambda / sigma2s, function(v) max(c(0, v)))

— JLD
fonte