Perché la regressione della cresta glmnet mi dà una risposta diversa rispetto al calcolo manuale?

Sto usando glmnet per calcolare le stime di regressione della cresta. Ho ottenuto alcuni risultati che mi hanno fatto sospettare che glmnet stia davvero facendo quello che penso faccia. Per verificare questo ho scritto un semplice script R in cui comparo il risultato della regressione della cresta effettuata da risolvere e quello in glmnet, la differenza è significativa:

n    <- 1000
p.   <-  100
X.   <- matrix(rnorm(n*p,0,1),n,p)
beta <- rnorm(p,0,1)
Y    <- X%*%beta+rnorm(n,0,0.5)

beta1 <- solve(t(X)%*%X+5*diag(p),t(X)%*%Y)
beta2 <- glmnet(X,Y, alpha=0, lambda=10, intercept=FALSE, standardize=FALSE, 
                family="gaussian")$beta@x
beta1-beta2

La norma della differenza è di solito intorno ai 20, che non può essere dovuta a algoritmi numericamente diversi, devo fare qualcosa di sbagliato. Quali sono le impostazioni che devo configurare glmnetper ottenere lo stesso risultato della cresta?

r ridge-regression glmnet

— John
fonte

Hai visto questa domanda ?

— cdeterman,

Sì, ma non riesco ancora a ottenere lo stesso risultato usando la normalizzazione.

— Giovanni,

Potresti pubblicare il tuo codice allora?

— Shadowtalker,

Ho appena avuto lo stesso problema! a = data.frame (a = jitter (1:10), b = jitter (1:10), c = jitter (1:10), d = jitter (1:10), e = jitter (1:10) , f = jitter (1:10), g = campione (jitter (1:10)), y = seq (10.100,10)); coef (lm.ridge (y ~ a + b + c + d + e + f + g, a, lambda = 2.57)); coef (glmnet (as.matrix (a [, 1: 7]), a $ y, family = "gaussian", alpha = 0, lambda = 2.57 / 10)) I risultati differiscono un po 'e diventano molto più simili quando Uso lambda molto più alte per glmnet.

— a11msp,

Intrigante. I coefficienti sembrano differire grosso modo dal fattore 10.

— tomka

Risposte:

La differenza che stai osservando è dovuta alla divisione aggiuntiva per il numero di osservazioni, N, che GLMNET utilizza nella loro funzione oggettiva e nella standardizzazione implicita di Y per la sua deviazione standard del campione, come mostrato di seguito.

\frac{1}{2 N} {‖ \frac{y}{s_{y}} - X β ‖}_{2}^{2} + λ ‖ β ‖_{2}^{2} / 2

$\frac{1}{2N}\left\|\frac{y}{s_y}-X\beta\right\|^2_{2}+\lambda\|\beta\|^2_{2}/2$

dove usiamo al posto di per , $1/n$ $1/(n-1)$ $s_y$

s_{y} = \frac{\sum_{i} (y_{i} - \bar{y})^{2}}{n}

$s_y=\frac{\sum_i(y_i-\bar{y})^2}{n}$

Differenziando rispetto alla beta, impostando l'equazione su zero,

X^{T} X β - \frac{X^{T} y}{s_{y}} + N λ β = 0

$X^TX\beta-\frac{X^Ty}{s_y}+N\lambda\beta =0$

E risolvendo per la beta, otteniamo il preventivo,

{\tilde{β}}_{G L M N E T} = (X^{T} X + N λ I_{p})^{- 1} \frac{X^{T} y}{s_{y}}

$\tilde{\beta}_{GLMNET}= (X^TX+N\lambda I_p)^{-1}\frac{X^Ty}{s_y}$

Per recuperare le stime (e le relative penalità) sulla metrica originale di Y, GLMNET moltiplica sia le stime che le per e restituisce questi risultati all'utente, $s_y$

{\hat{β}}_{G L M N E T} = s_{y} {\tilde{β}}_{G L M N E T} = (X^{T} X + N λ I_{p})^{- 1} X^{T} y

$\hat{\beta}_{GLMNET}=s_y\tilde{\beta}_{GLMNET}= (X^TX+N\lambda I_p)^{-1}X^Ty$

λ_{u n s t d .} = s_{y} λ

$\lambda_{unstd.}=s_y\lambda$

Confronta questa soluzione con la derivazione standard della regressione della cresta.

\hat{β} = (X^{T} X + λ I_{p})^{- 1} X^{T} y

$\hat{\beta}= (X^TX+\lambda I_p)^{-1}X^Ty$

Si noti che viene ridimensionato di un fattore aggiuntivo di N. Inoltre, quando si utilizza la funzione o , la penalità verrà ridimensionata implicitamente di . Vale a dire, quando usiamo queste funzioni per ottenere le stime dei coefficienti per alcuni , stiamo effettivamente ottenendo stime per . $\lambda$ predict()coef() $1/s_y$ $\lambda^*$ $\lambda=\lambda^*/s_y$

Sulla base di queste osservazioni, la sanzione utilizzato in GLMNET deve essere scalato di un fattore . $s_y/N$

set.seed(123)

n    <- 1000
p   <-  100
X   <- matrix(rnorm(n*p,0,1),n,p)
beta <- rnorm(p,0,1)
Y    <- X%*%beta+rnorm(n,0,0.5)

sd_y <- sqrt(var(Y)*(n-1)/n)[1,1]

beta1 <- solve(t(X)%*%X+10*diag(p),t(X)%*%(Y))[,1]

fit_glmnet <- glmnet(X,Y, alpha=0, standardize = F, intercept = FALSE, thresh = 1e-20)
beta2 <- as.vector(coef(fit_glmnet, s = sd_y*10/n, exact = TRUE))[-1]
cbind(beta1[1:10], beta2[1:10])

           [,1]        [,2]
[1,]  0.23793862  0.23793862
[2,]  1.81859695  1.81859695
[3,] -0.06000195 -0.06000195
[4,] -0.04958695 -0.04958695
[5,]  0.41870613  0.41870613
[6,]  1.30244151  1.30244151
[7,]  0.06566168  0.06566168
[8,]  0.44634038  0.44634038
[9,]  0.86477108  0.86477108
[10,] -2.47535340 -2.47535340

I risultati si generalizzano all'inserimento di un'intercetta e di variabili X standardizzate. Modifichiamo una matrice X standardizzata per includere una colonna di una e la matrice diagonale per avere un'entrata zero aggiuntiva nella posizione [1,1] (cioè non penalizzare l'intercettazione). È quindi possibile annullare la standardizzazione delle stime in base alle rispettive deviazioni standard del campione (di nuovo assicurarsi di utilizzare 1 / n durante il calcolo della deviazione standard).

{\hat{β}}_{j} = \frac{\tilde{β_{j}}}{s_{x_{j}}}

$\hat\beta_{j}=\frac{\tilde{\beta_j}}{s_{x_j}}$

{\hat{β}}_{0} = \tilde{β_{0}} - {\bar{x}}^{T} \hat{β}

$\hat\beta_{0}=\tilde{\beta_0}-\bar{x}^T\hat{\beta}$

mean_x <- colMeans(X)
sd_x <- sqrt(apply(X,2,var)*(n-1)/n)
X_scaled <- matrix(NA, nrow = n, ncol = p)
for(i in 1:p){
    X_scaled[,i] <- (X[,i] - mean_x[i])/sd_x[i] 
}
X_scaled_ones <- cbind(rep(1,n), X_scaled)

beta3 <- solve(t(X_scaled_ones)%*%X_scaled_ones+1000*diag(x = c(0, rep(1,p))),t(X_scaled_ones)%*%(Y))[,1]
beta3 <- c(beta3[1] - crossprod(mean_x,beta3[-1]/sd_x), beta3[-1]/sd_x)

fit_glmnet2 <- glmnet(X,Y, alpha=0, thresh = 1e-20)
beta4 <- as.vector(coef(fit_glmnet2, s = sd_y*1000/n, exact = TRUE))

cbind(beta3[1:10], beta4[1:10])
             [,1]        [,2]
 [1,]  0.24534485  0.24534485
 [2,]  0.17661130  0.17661130
 [3,]  0.86993230  0.86993230
 [4,] -0.12449217 -0.12449217
 [5,] -0.06410361 -0.06410361
 [6,]  0.17568987  0.17568987
 [7,]  0.59773230  0.59773230
 [8,]  0.06594704  0.06594704
 [9,]  0.22860655  0.22860655
[10,]  0.33254206  0.33254206

Codice aggiunto per mostrare X standardizzata senza intercettazione:

set.seed(123)

n <- 1000
p <-  100
X <- matrix(rnorm(n*p,0,1),n,p)
beta <- rnorm(p,0,1)
Y <- X%*%beta+rnorm(n,0,0.5)

sd_y <- sqrt(var(Y)*(n-1)/n)[1,1]

mean_x <- colMeans(X)
sd_x <- sqrt(apply(X,2,var)*(n-1)/n)

X_scaled <- matrix(NA, nrow = n, ncol = p)
for(i in 1:p){
    X_scaled[,i] <- (X[,i] - mean_x[i])/sd_x[i] 
}

beta1 <- solve(t(X_scaled)%*%X_scaled+10*diag(p),t(X_scaled)%*%(Y))[,1]

fit_glmnet <- glmnet(X_scaled,Y, alpha=0, standardize = F, intercept = 
FALSE, thresh = 1e-20)
beta2 <- as.vector(coef(fit_glmnet, s = sd_y*10/n, exact = TRUE))[-1]
cbind(beta1[1:10], beta2[1:10])

             [,1]        [,2]
 [1,]  0.23560948  0.23560948
 [2,]  1.83469846  1.83469846
 [3,] -0.05827086 -0.05827086
 [4,] -0.04927314 -0.04927314
 [5,]  0.41871870  0.41871870
 [6,]  1.28969361  1.28969361
 [7,]  0.06552927  0.06552927
 [8,]  0.44576008  0.44576008
 [9,]  0.90156795  0.90156795
[10,] -2.43163420 -2.43163420

— skijunkie
fonte

+6. Benvenuto in CV e grazie per aver risposto a questa vecchia domanda in modo così chiaro.

— ameba dice di ripristinare Monica

Dovrebbe essere la matrice identità invece di nella soluzione di , corretta?

β

$\beta$

\tilde{β}

$\tilde{\beta}$

— user1769197,

Noto anche che per la seconda parte in cui hai detto "I risultati si generalizzano all'inserimento di un'intercetta e variabili X standardizzate"; per questa parte, se si esclude l'intercettazione, quindi seguendo gli stessi calcoli, i risultati di glmnet diventano diversi dal calcolo manuale.

— user1769197

Corretto, ho aggiornato la soluzione con la matrice identità al posto di se necessario. Ho verificato la soluzione per X standardizzata senza intercettazione e ancora ottenere risultati identici (vedere il codice aggiuntivo sopra).

β

$\beta$

— skijunkie,

Secondo https://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html , quando la famiglia è gaussian, glmnet()dovrebbe minimizzare

\begin{matrix} (1) & \frac{1}{2 n} \sum_{i = 1}^{n} (y_{i} - β_{0} - x_{i}^{T} β)^{2} + λ \sum_{j = 1}^{p} (α | β_{j} | + (1 - α) β_{j}^{2} / 2) . \end{matrix}

$\frac{1}{2n} \sum_{i=1}^n (y_i-\beta_0-x_i^T\beta)^2 +\lambda\sum_{j=1}^p(\alpha|\beta_j| +(1-\alpha)\beta_j^2/2). \tag{1}$

Quando si utilizza glmnet(x, y, alpha=1)per adattare il lazo con le colonne in standardizzate, la soluzione per la penalità riportata è la soluzione per ridurre al minimo Tuttavia, almeno in , quando si utilizza per adattarsi alla regressione della cresta, la soluzione per una penalità segnalata è la soluzione per ridurre al minimo dove è la deviazione standard di . Qui, la penalità avrebbe dovuto essere segnalata come . $x$ $\lambda$

\frac{1}{2 n} \sum_{i = 1}^{n} (y_{i} - β_{0} - x_{i}^{T} β)^{2} + λ \sum_{j = 1}^{p} | β_{j} | .

$\frac{1}{2n} \sum_{i=1}^n (y_i-\beta_0-x_i^T\beta)^2 +\lambda \sum_{j=1}^p |\beta_j|.$ glmnet_2.0-13glmnet(x, y, alpha=0)

λ

$\lambda$

\frac{1}{2 n} \sum_{i = 1}^{n} (y_{i} - β_{0} - x_{i}^{T} β)^{2} + λ \frac{1}{2 s_{y}} \sum_{j = 1}^{p} β_{j}^{2} .

$\frac{1}{2n} \sum_{i=1}^n (y_i-\beta_0-x_i^T\beta)^2 +\lambda \frac{1}{2s_y} \sum_{j=1}^p \beta_j^2.$

s_{y}

$s_y$

y

$y$

λ / s_{y}

$\lambda/s_y$

Ciò che potrebbe accadere è che la funzione standardizza dapprima a e quindi riduce a icona che di fatto è minimizzare o equivalentemente, per ridurre al minimo $y$ $y_0$

\begin{matrix} (2) & \frac{1}{2 n} \sum_{i = 1}^{n} (y_{0 i} - x_{i}^{T} γ)^{2} + η \sum_{j = 1}^{p} (α | γ_{j} | + (1 - α) γ_{j}^{2} / 2), \end{matrix}

$\frac{1}{2n} \sum_{i=1}^n (y_{0i}-x_i^T\gamma)^2 +\eta \sum_{j=1}^p(\alpha|\gamma_j| +(1-\alpha)\gamma_j^2/2), \tag{2}$

\frac{1}{2 n s_{y}^{2}} \sum_{i = 1}^{n} (y_{i} - β_{0} - x_{i}^{T} β)^{2} + η \frac{α}{s_{y}} \sum_{j = 1}^{p} | β_{j} | + η \frac{1 - α}{2 s_{y}^{2}} \sum_{j = 1}^{p} β_{j}^{2},

$\frac{1}{2n s_y^2} \sum_{i=1}^n (y_i-\beta_0-x_i^T\beta)^2 +\eta \frac{\alpha}{s_y} \sum_{j=1}^p |\beta_j| +\eta \frac{1-\alpha}{2s_y^2} \sum_{j=1}^p \beta_j^2,$

\frac{1}{2 n} \sum_{i = 1}^{n} (y_{i} - β_{0} - x_{i}^{T} β)^{2} + η s_{y} α \sum_{j = 1}^{p} | β_{j} | + η (1 - α) \sum_{j = 1}^{p} β_{j}^{2} / 2.

$\frac{1}{2n} \sum_{i=1}^n (y_i-\beta_0-x_i^T\beta)^2 +\eta s_y \alpha \sum_{j=1}^p |\beta_j| +\eta (1-\alpha) \sum_{j=1}^p \beta_j^2/2.$

Per il lazo ( ), ridimensionare per riportare la penalità come ha senso. Quindi per tutti , deve essere segnalato come penalità per mantenere la continuità dei risultati su . Questa è probabilmente la causa del problema sopra. Ciò è in parte dovuto all'utilizzo di (2) per risolvere (1). Solo quando o c'è una certa equivalenza tra i problemi (1) e (2) (cioè una corrispondenza tra in (1) e in (2)). Per qualsiasi altro $\alpha=1$ $\eta$ $\eta s_y$ $\alpha$ $\eta s_y$ $\alpha$ $\alpha=0$ $\alpha=1$ $\lambda$ $\eta$ $\alpha\in(0,1)$ , i problemi (1) e (2) sono due diversi problemi di ottimizzazione e non esiste una corrispondenza uno a uno tra in (1) e in (2). $\lambda$ $\eta$

— Chun Li
fonte

Non riesco a vedere dove differisce la tua risposta dalla precedente. Potresti spiegare, per favore?

— Firebug,

@Firebug Volevo far luce sul perché la funzione riporta la lambda in questo modo, che appare innaturale se vista solo dal punto di vista della regressione della cresta, ma ha senso (o deve essere così) se vista dalla prospettiva dell'intero spettro tra cui sia la cresta che il lazo.

— Chun Li,