Perché i derivati di secondo ordine sono utili nell'ottimizzazione convessa?

18

Immagino che questa sia una domanda di base e abbia a che fare con la direzione del gradiente stesso, ma sto cercando esempi in cui i metodi del 2 ° ordine (ad es. BFGS ) sono più efficaci della semplice discesa del gradiente.

optimization

— Bar
fonte

3

È troppo semplicistico osservare semplicemente che "trova il vertice di un paraboloide" è un'approssimazione molto migliore al problema "trova un minimo" di "trova il minimo di questa funzione lineare" (che, ovviamente, non ha alcun minimo perché è lineare)?

20

Ecco un framework comune per interpretare sia la discesa del gradiente che il metodo di Newton, che è forse un modo utile di pensare alla differenza come supplemento alla risposta di @Sycorax. (BFGS si avvicina al metodo di Newton; non ne parlerò in particolare qui.)

Stiamo riducendo al minimo la funzione $f$ , ma non sappiamo come farlo direttamente. Quindi, invece, prendiamo un'approssimazione locale nel nostro punto corrente $x$ e la minimizziamo.

f (y) \approx N_{x} (y) := f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2} (y - x)^{T} \nabla^{2} f (x) (y - x),

$f(y) \approx N_x(y) := f(x) + \nabla f(x)^T (y - x) + \tfrac12 (y - x)^T \, \nabla^2 f(x) \, (y - x) ,$

\nabla f (x)

$\nabla f(x)$

f

$f$

x

$x$

\nabla^{2} f (x)

$\nabla^2 f(x)$

x

$x$

\arg min_{y} N_{x} (y)

$\arg\min_y N_x(y)$ e si ripete.

$t$ $x - t \nabla f(x)$

\begin{aligned} x - t \nabla f (x) & = \arg max_{y} [f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2 t} ‖ y - x ‖^{2}] \\ = \arg max_{y} [f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2} (y - x)^{T} \frac{1}{t} I (y - x)] . \end{aligned}

$\begin{align} x - t \,\nabla f(x) &= \arg\max_y \left[f(x) + \nabla f(x)^T (y - x) + \tfrac{1}{2 t} \lVert y - x \rVert^2\right] \\&= \arg\max_y \left[f(x) + \nabla f(x)^T (y - x) + \tfrac12 (y-x)^T \tfrac{1}{t} I (y - x)\right] .\end{align}$

G_{x} (y) := f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2} (y - x)^{T} \frac{1}{t} I (y - x) .

$G_x(y) := f(x) + \nabla f(x)^T (y - x) + \tfrac12 (y-x)^T \tfrac{1}{t} I (y - x).$

$\tfrac1t I$ $G$ $f$ $N$

f (x) = \frac{1}{2} x^{T} A x + d^{T} x + c

$f(x) = \tfrac12 x^T A x + d^T x + c$

$N = f$

G_{x} (y) = f (x) + (A x + d)^{T} y + \frac{1}{2} (x - y)^{T} \frac{1}{t} I (x - y)

$G_x(y) = f(x) + (A x + d)^T y + \tfrac12 (x - y)^T \tfrac1t I (x-y)$

x

$x$

A

$A$

— Dougal
fonte

1

Questo è simile alla risposta di @ Aksakal , ma in modo più approfondito.

— Dougal,

1

(+1) Questa è una grande aggiunta!

— Sycorax dice di ripristinare Monica

17

In sostanza, il vantaggio di un metodo di derivata seconda come il metodo di Newton è che ha la qualità della terminazione quadratica. Ciò significa che può minimizzare una funzione quadratica in un numero finito di passaggi. Un metodo come la discesa gradiente dipende in larga misura dalla velocità di apprendimento, che può far sì che l'ottimizzazione converga lentamente perché rimbalza intorno all'ottimale o diverge completamente. Si possono trovare tassi di apprendimento stabili ... ma comportano il calcolo dell'assia. Anche quando si utilizza un tasso di apprendimento stabile, è possibile che si verifichino problemi come l'oscillazione attorno all'ottimale, ovvero che non si prenda sempre un percorso "diretto" o "efficiente" verso il minimo. Quindi possono essere necessarie molte iterazioni per terminare, anche seci sei relativamente vicino. Il metodo di BFGS e Newton può convergere più rapidamente anche se lo sforzo computazionale di ogni passaggio è più costoso.

F (X) = \frac{1}{2} X^{T} UN X + d^{T} X + c

$F(x)=\frac{1}{2}x^TAx+d^Tx+c$

\nabla F (X) = UN X + d

$\nabla F(x)=Ax+d$

X_{K + 1} = X_{K} - α (UN X_{K} + d) = (io - α UN) X_{K} - α d .

$x_{k+1}= x_k-\alpha(Ax_k+d) = (I-\alpha A)x_k-\alpha d.$

Questo sarà stabile se le magnitudini degli autovettori di $I-\alpha A$ sono inferiori a 1. Possiamo usare questa proprietà per dimostrare che un tasso di apprendimento stabile soddisfa

α < \frac{2}{λ_{m un' X}},

$\alpha<\frac{2}{\lambda_{max}},$ dove

λ_{m a x}

$\lambda_{max}$ is the largest eigenvalue of

A

$A$ . The steepest descent algorithm's convergence rate is limited by the largest eigenvalue and the routine will converge most quickly in the direction of its corresponding eigenvector. Likewise, it will converge most slowly in directions of the eigenvector of the smallest eigenvalue. When there is a large disparity between large and small eigenvalues for

A

$A$ , gradient descent will be slow. Any

A

$A$ with this property will converge slowly using gradient descent.

In the specific context of neural networks, the book Neural Network Design has quite a bit of information on numerical optimization methods. The above discussion is a condensation of section 9-7.

— Sycorax says Reinstate Monica
fonte

Great answer! I'm accepting @Dougal 's answer as I think it provides a simpler explanation.

— Bar

6

In convex optimization you are approximating the function as the second degree polynomial in one dimensional case:

f (x) = c + β x + α x^{2}

$f(x)=c+\beta x + \alpha x^2$

In this case the the second derivative

\partial^{2} f (x) / \partial x^{2} = 2 α

$\partial^2 f(x)/\partial x^2=2\alpha$

If you know the derivatives, then it's easy to get the next guess for the optimum:

guess = - \frac{β}{2 α}

$\text{guess}=-\frac{\beta}{2\alpha}$

The multivariate case is very similar, just use gradients for derivatives.

— Aksakal
fonte

2

@Dougal already gave a great technical answer.

The no-maths explanation is that while the linear (order 1) approximation provides a “plane” that is tangential to a point on an error surface, the quadratic approximation (order 2) provides a surface that hugs the curvature of the error surface.

The videos on this link do a great job of visualizing this concept. They display order 0, order 1 and order 2 approximations to the function surface, which just intuitively verifies what the other answers present mathematically.

Also, a good blogpost on the topic (applied to neural networks) is here.

— Zhubarb
fonte

Perché i derivati ​​di secondo ordine sono utili nell'ottimizzazione convessa?

Perché i derivati di secondo ordine sono utili nell'ottimizzazione convessa?