La percentuale di errore è una funzione convessa del parametro di regolarizzazione lambda?

Nella scelta del parametro di regolarizzazione lambda in Ridge o Lasso, il metodo consigliato è provare diversi valori di lambda, misurare l'errore nel set di convalida e infine scegliere quel valore di lambda che restituisce l'errore più basso.

Non è un problema per me se la funzione f (lambda) = errore è convessa. Potrebbe essere così? Vale a dire che questa curva potrebbe avere più di un minimo locale (il che implicherebbe che trovare un minimo dell'errore in una regione di lambda non preclude la possibilità che in un'altra regione vi sia una lambda che restituisce un errore ancora più piccolo)

Il tuo consiglio sarà apprezzato.

— RF7
fonte

Risposte:

La domanda originale chiedeva se la funzione di errore deve essere convessa. No non lo fa. L'analisi presentata di seguito ha lo scopo di fornire alcune intuizioni e intuizioni su questo e sulla domanda modificata, che chiede se la funzione di errore possa avere più minimi locali.

Intuitivamente, non ci deve essere alcuna relazione matematicamente necessaria tra i dati e il set di addestramento. Dovremmo essere in grado di trovare dati di allenamento per i quali il modello inizialmente è scarso, migliora con un po 'di regolarizzazione e poi peggiora di nuovo. La curva di errore non può essere convessa in quel caso - almeno non se facciamo variare il parametro di regolarizzazione da a . $0$ $\infty$

Nota che convesso non equivale ad avere un minimo unico! Tuttavia, idee simili suggeriscono che sono possibili più minimi locali: durante la regolarizzazione, prima il modello adattato potrebbe migliorare per alcuni dati di allenamento mentre non cambia sensibilmente per altri dati di allenamento, quindi in seguito migliorerà per altri dati di allenamento, ecc. la combinazione di tali dati di formazione dovrebbe produrre multipli minimi locali. Per semplificare l'analisi non tenterò di dimostrarlo.

Modifica (per rispondere alla domanda modificata)

Ero così fiducioso nell'analisi presentata di seguito e nell'intuizione che stava dietro che mi ero prefissato di trovare un esempio nel modo più rozzo possibile: ho generato piccoli set di dati casuali, eseguito un Lazo su di essi, calcolato l'errore quadratico totale per un piccolo set di allenamento, e tracciava la sua curva di errore. Alcuni tentativi hanno prodotto uno con due minimi, che descriverò. I vettori sono nel formato per le funzioni e e la risposta . $(x_1,x_2,y)$ $x_1$ $x_2$ $y$

Dati di allenamento

(1, 1, - 0.1), (2, 1, 0.8), (1, 2, 1.2), (2, 2, 0.9)

$(1,1,-0.1),\ (2,1,0.8),\ (1,2,1.2),\ (2,2,0.9)$

Dati di test

(1, 1, 0.2), (1, 2, 0.4)

$(1,1,0.2),\ (1,2,0.4)$

Il Lazo è stato eseguito usando glmnet::glmmetin R, con tutti gli argomenti lasciati ai loro valori predefiniti. I valori di sull'asse x sono i reciproci dei valori riportati da quel software (perché parametrizza la sua penalità con ). $\lambda$ $1/\lambda$

Una curva di errore con più minimi locali

Analisi

Consideriamo qualsiasi metodo di regolarizzazione per adattare i parametri ai dati e alle risposte corrispondenti che hanno queste proprietà comuni a Ridge Regression e Lasso: $\beta=(\beta_1, \ldots, \beta_p)$ $x_i$ $y_i$

(Parametrizzazione) Il metodo è parametrizzato da numeri reali , con il modello non regolamentato corrispondente a . $\lambda \in [0, \infty)$ $\lambda=0$
(Continuità) La stima dei parametri dipende continuamente da e i valori previsti per qualsiasi funzione variano continuamente con . $\hat\beta$ $\lambda$ $\hat\beta$
(Restringimento) Come , . $\lambda\to\infty$ $\hat\beta\to 0$
(Finezza) Per ogni vettore caratteristica , come , la previsione . $x$ $\hat\beta\to 0$ $\hat y(x) = f(x, \hat\beta) \to 0$
(Errore monotonico) La funzione di errore che confronta qualsiasi valore con un valore previsto , , aumenta con la discrepanzain modo che, con qualche abuso di notazione, possiamo esprimerlo come . $y$ $\hat y$ $\mathcal{L}(y, \hat y)$ $|\hat y - y|$ $\mathcal{L}(|\hat y - y|)$

(Zero in potrebbe essere sostituito da qualsiasi costante.) $(4)$

Supponiamo che i dati siano tali che la stima del parametro iniziale (non regolamentata) non sia zero. Let costrutto un set di dati di formazione composto da un'osservazione per il quale . (Se non è possibile trovare un tale , il modello iniziale non sarà molto interessante!) Impostare . $\hat\beta(0)$ $(x_0, y_0)$ $f(x_0, \hat\beta(0))\ne 0$ $x_0$ $y_0=f(x_0, \hat\beta(0))/2$

Le ipotesi implicano che la curva di errore ha queste proprietà: $e: \lambda \to \mathcal{L}(y_0, f(x_0, \hat\beta(\lambda))$

$e(0) = \mathcal{L}(y_0, f(x_0, \hat\beta(0)) = \mathcal{L}(y_0, 2y_0) = \mathcal{L}(|y_0|)$ (a causa di la scelta di ). $y_0$
$\lim_{\lambda\to\infty}e(\lambda) = \mathcal{L}(y_0, 0) = \mathcal{L}(|y_0|)$ (perché come , , da cui ). $\lambda\to\infty$ $\hat\beta(\lambda)\to 0$ $\hat{y}(x_0)\to 0$

Pertanto, il suo grafico collega continuamente due endpoint ugualmente alti (e finiti).

Qualitativamente, ci sono tre possibilità:

La previsione per il set di allenamento non cambia mai. Questo è improbabile: quasi tutti gli esempi scelti non avranno questa proprietà.
Alcune previsioni intermedie per sono peggiori rispetto all'inizio o nel limite da . Questa funzione non può essere convessa. $0\lt \lambda \lt \infty$ $\lambda=0$ $\lambda\to\infty$
Tutte le previsioni intermedie si trovano tra e . La continuità implica che ci sarà almeno un minimo di , vicino al quale deve essere convesso. Ma poiché avvicina asintoticamente ad una costante finita , non può essere convessa per abbastanza . $0$ $2y_0$ $e$ $e$ $e(\lambda)$ $\lambda$

La linea tratteggiata verticale nella figura mostra dove la trama cambia da convessa (alla sua sinistra) a non convessa (a destra). (C'è anche una regione di non convessità vicino a in questa figura, ma questo non sarà necessariamente il caso in generale.) $\lambda\approx 0$

— whuber
fonte

Grazie per la tua elaborata risposta. Se possibile, rivedi la domanda mentre ho modificato e aggiorna la tua risposta.

— rf7,

Ottima risposta (+1). In pratica, penso che spesso non ci siano così pochi punti di addestramento e test. La conclusione di questa risposta cambia quando ci sono abbastanza punti dati di training e test tratti dalla stessa distribuzione (fissa e sufficientemente regolare)? In particolare, in questo scenario, esiste un minimo locale unico con alta probabilità?

— user795305

@Ben Non è il numero di punti di prova che conta: questo risultato dipende interamente dalla distribuzione dei punti di prova rispetto alla distribuzione dei punti di allenamento. Pertanto il problema di "con alta probabilità" non sarà responsabile senza fare alcune ipotesi specifiche sulla distribuzione multivariata delle variabili del regressore. Inoltre, con molte variabili in gioco questo fenomeno di multipli minimi locali sarà molto più probabile. Ho il sospetto che la selezione casuale di un ampio set di test (con molte volte tante osservazioni quante variabili) potrebbe spesso avere un unico min globale.

— whuber

@whuber Grazie! Concordo: la (vera) distribuzione tra i punti di addestramento e test dovrebbe essere la stessa, e ci devono essere abbastanza campioni che le distribuzioni empiriche del set di addestramento e test siano d'accordo. (Sembra che lo abbia espresso male nel mio precedente commento.) Ad esempio, se ha una distribuzione congiuntamente normale (con covarianza non generata), sospetto che la probabilità che la curva di errore abbia un min locale unico converge in 1 (se, diciamo, ci sono campioni nell'allenamento e nel set di test con con fisso (o addirittura aumentando lentamente rispetto a ))

(x, y)

$(\mathbf x, y)$

n

$n$

n \to \infty

$n \to \infty$

p

$p$

n

$n$

— user795305

$\newcommand{\dbeta}{\frac{\partial}{\partial \lambda} \hat\beta_\lambda}$ $\newcommand{\ddbeta}{\frac{\partial^2}{{\partial \lambda}^2} \hat\beta_\lambda}$

Questa risposta riguarda specificamente il lazo (e non vale per la regressione della cresta).

Impostare

Supponiamo di avere covariate che stiamo usando per modellare una risposta. Supponiamo di avere punti dati di addestramento e punti dati di validazione. $p$ $n$ $m$

Lascia che l'input di training sia e che la risposta sia . Useremo il lazo su questi dati di allenamento. Cioè, inserisci una famiglia di coefficienti stimati dai dati di allenamento. Sceglieremo quale usare come nostro stimatore in base al suo errore in un set di validazione, con input e risposta . Con $X_{(1)} \in \mathbb{R}^{n \times p}$ $y_{(1)} \in \mathbb{R}^n$

\begin{matrix} (1) & {\hat{β}}_{λ} = \arg min_{β \in R^{p}} ‖ y_{(1)} - X_{(1)} β ‖_{2}^{2} + λ ‖ β ‖_{1}, \end{matrix}

$\hat\beta_\lambda = \arg\min_{\beta \in \mathbb{R}^p} \|y_{(1)} - X_{(1)} \beta\|_2^2 + \lambda \|\beta\|_1, \tag{1}$

{\hat{β}}_{λ}

$\hat\beta_\lambda$

X_{(2)} \in R^{m \times p}

$X_{(2)} \in \mathbb{R}^{m \times p}$

y_{(2)} \in R^{m}

$y_{(2)} \in \mathbb{R}^m$

\begin{matrix} (2) & \hat{λ} = \arg min_{λ \in R_{+}} ‖ y_{(2)} - X_{(2)} {\hat{β}}_{λ} ‖_{2}^{2}, \end{matrix}

$\hat\lambda = \arg\min_{\lambda \in \mathbb{R}_+} \|y_{(2)} - X_{(2)} \hat\beta_\lambda\|_2^2, \tag{2}$ ci interessa studiare la funzione di errore che dà origine al nostro strumento di sui dati .

e (λ) = ‖ y_{(2)} - X_{(2)} {\hat{β}}_{λ} ‖_{2}^{2}

$e(\lambda) = \|y_{(2)} - X_{(2)} \hat\beta_\lambda\|_2^2$

{\hat{β}}_{\hat{λ}}

$\hat\beta_{\hat\lambda}$

Calcolo

Ora, calcoliamo la derivata seconda dell'obiettivo nell'equazione , senza fare alcuna ipotesi di distribuzione sulla 's o ' s. Usando la differenziazione e una certa riorganizzazione, calcoliamo (formalmente) che $(2)$ $X$ $y$

\begin{aligned} \frac{\partial^{2}}{{\partial λ}^{2}} ‖ y_{(2)} - X_{(2)} {\hat{β}}_{λ} ‖_{2}^{2} & = \frac{\partial}{\partial λ} {- 2 y_{(2)}^{T} X_{(2)} \frac{\partial}{\partial λ} {\hat{β}}_{λ} + 2 {\hat{β}}_{λ}^{T} X_{(2)}^{T} X_{(2)} \frac{\partial}{\partial λ} {\hat{β}}_{λ}} \\ = - 2 y_{(2)}^{T} X_{(2)} \frac{\partial^{2}}{{\partial λ}^{2}} {\hat{β}}_{λ} + 2 {({\hat{β}}_{λ})}^{T} X_{(2)}^{T} X_{(2)} \frac{\partial^{2}}{{\partial λ}^{2}} {\hat{β}}_{λ} + 2 \frac{\partial}{\partial λ} {\hat{β}}_{λ}^{T} X_{(2)}^{T} X_{(2)}^{T} \frac{\partial}{\partial λ} {\hat{β}}_{λ} \\ = - 2 {{(y_{(2)} - X_{(2)} {\hat{β}}_{λ})}^{T} \frac{\partial^{2}}{{\partial λ}^{2}} {\hat{β}}_{λ} - ‖ X_{(2)} \frac{\partial}{\partial λ} {\hat{β}}_{λ} ‖_{2}^{2}} . \end{aligned}

$\begin{align*} \frac{\partial^2}{{\partial \lambda}^2} \|y_{(2)} - X_{(2)} \hat\beta_\lambda\|_2^2 & = \frac{\partial}{\partial \lambda} \left\{ -2 y_{(2)}^T X_{(2)} \dbeta + 2 \hat\beta_\lambda^T X_{(2)}^T X_{(2)} \dbeta \right\} \\ & = -2 y_{(2)}^T X_{(2)} \ddbeta + 2 \left( \hat\beta_\lambda \right)^T X_{(2)}^T X_{(2)} \ddbeta + 2 \dbeta^T X_{(2)}^T X_{(2)}^T \dbeta \\ & = -2 \left\{ \left( y_{(2)} - X_{(2)} \hat\beta_\lambda \right)^T \ddbeta - \|X_{(2)} \dbeta\|_2^2 \right\}. \end{align*}$ Poiché è lineare a tratti per (poiché è l'insieme finito di nodi nel percorso della soluzione lazo), la derivata è costante a tratti e è zero per tutti . Pertanto, una funzione non negativa di .

{\hat{β}}_{λ}

$\hat\beta_\lambda$

λ \notin K

$\lambda \not\in K$

K

$K$

\frac{\partial}{\partial λ} {\hat{β}}_{λ}

$\dbeta$

\frac{\partial^{2}}{{\partial λ}^{2}} {\hat{β}}_{λ}

$\ddbeta$

λ \notin K

$\lambda \not\in K$

\frac{\partial^{2}}{{\partial λ}^{2}} ‖ y_{(2)} - X_{(2)} {\hat{β}}_{λ} ‖_{2}^{2} = 2 ‖ X_{(2)} \frac{\partial}{\partial λ} {\hat{β}}_{λ} ‖_{2}^{2},

$\frac{\partial^2}{{\partial \lambda}^2} \|y_{(2)} - X_{(2)} \hat\beta_\lambda\|_2^2 = 2 \|X_{(2)} \dbeta\|_2^2,$

λ

$\lambda$

Conclusione

Se assumiamo ulteriormente che sia tratto da una distribuzione continua indipendente da , il vettore quasi sicuramente per . Pertanto, la funzione di errore ha una seconda derivata su che è (quasi sicuramente) strettamente positiva. Tuttavia, sapendo che è continuo, sappiamo che l'errore di validazione è continuo. $X_{(2)}$ $\{X_{(1)}, y_{(1)} \}$ $X_{(2)} \dbeta \neq 0$ $\lambda < \lambda_\max$ $e(\lambda)$ $\mathbb{R} \setminus K$ $\hat\beta_\lambda$ $e(\lambda)$

Infine, dal doppio lazo, sappiamo che diminuisce monotonicamente all'aumentare di . Se possiamo stabilire che è anche monotonico, allora segue la forte convessità di . Tuttavia, ciò vale con una probabilità che si avvicina a uno se . (Compilerò i dettagli qui presto.) $\|X_{(1)} \hat\beta_\lambda\|_2^2$ $\lambda$ $\|X_{(2)} \hat\beta_\lambda\|_2^2$ $e(\lambda)$ $\mathcal{L} \left( X_{(1)} \right) = \mathcal{L} \left( X_{(2)} \right)$

— user795305
fonte

Affidati solo a essendo una funzione lineare continua a tratti di per concludere è strettamente convessa. Vediamo se tale detrazione è generalmente valida. Una di queste funzioni è(dove indica l'arrotondamento al numero intero più vicino). Supponiamo che e , in modo che . Questa funzione di errore ha infiniti minimi locali. Non è convesso - è solo convesso ovunque tranne che in punti isolati! Questo mi porta a credere che stai facendo ulteriori ipotesi non dichiarate.

\hat{β}

$\hat\beta$

λ

$\lambda$

\hat{e}

$\hat e$

\hat{β} (λ) = | λ - [λ] |

$\hat\beta(\lambda)=|\lambda-[\lambda]|$

[]

$[]$

y_{(2)} = 0

$y_{(2)}=0$

X_{(2)} = 1

$X_{(2)}=1$

\hat{e} (λ) = \hat{β} (λ)^{2}

$\hat {e}(\lambda)=\hat\beta(\lambda)^2$

— whuber

@whuber Ottimo punto! Grazie! Modificherò questo post più presto.

— user795305,