Criterio di arresto per Nelder Mead

11

Sto cercando di implementare l'algoritmo Nelder-Mead per ottimizzare una funzione. La pagina di Wikipedia su Nelder-Mead è sorprendentemente chiara sull'intero algoritmo, ad eccezione del suo criterio di arresto. Lì dice tristemente:

Verificare la convergenza _{[chiarimento necessario]} .

Ho provato e testato un paio di criteri me stesso:

Fermati se dove è piccolo e dove è l' -vertice del simplex, ordinato dal basso ( ) all'alto ( ) valori della funzione. In altre parole, quando il valore massimo del simplex è quasi uguale al valore minimo. Ho scoperto che questo non ha funzionato correttamente, dal momento che questo non fornisce garanzie su ciò che la funzione fa all'interno del simplex. Esempio, considera la funzione: Questo è ovviamente banale da ottimizzare, ma diciamo che lo facciamo con NM, e lascia che i nostri due punti simplex siano e $f(x_{N+1}) - f(x_1) < \epsilon$ $\epsilon$ $x_i$ $i$ $f(x_1)$ $f(x_{N+1})$
$f (X) = X^{2}$ $f(x) = x^2$ $x_1 = -1$ $x_2=1$ . L'algoritmo converrebbe qui senza trovare il suo ottimale.
La seconda opzione prevede la valutazione del centroide del simplex: stop if . Ciò presuppone che se il punto più basso del simplex e del centroide hanno valori simili, il simplex è sufficientemente piccolo da chiamare convergenza. $|f(x_1) - f(x_c)| < \epsilon$

È questo un modo corretto per verificare la convergenza? O esiste un modo stabilito per verificarlo? Non ho trovato alcuna fonte su questo, dal momento che la maggior parte dei risultati della ricerca si concentra sulla complessità dell'algoritmo.

optimization algorithms

— JAD
fonte

1. Non mi è chiaro perché stai confrontando ciò che accade in

con

; sicuramente ci si vuole confrontare con ciò che accade a

. 2. i controlli di convergenza sono un'area particolarmente delicata in termini di ottimizzazione; hai bisogno che la funzione non cambi molto, ma se gli argomenti cambiano rapidamente (anche se la funzione sta cambiando a malapena) potresti non essere convergente, quindi le persone spesso usano criteri che guardano entrambi. C'è anche il problema se usi un parente o un criterio assoluto (nessuno dei due è sufficiente, ad esempio un test relativo quando sei molto vicino a 0 non verrà attivato)

x_{N + 1}

$x_{N+1}$

x_{1}

$x_1$

x_{N}

$x_N$

— Glen_b -Reinstate Monica

3

Il miglior criterio di arresto per Nelder Mead è prima di iniziare.

— Mark L. Stone,

Giusto per evitare confusione e notazione nel commento di @ Glen_b ... Credo che i pedici qui si riferiscano ai vertici del simplex, non all'iterazione dell'algoritmo. In modo che il primo criterio di convergenza proposto in questa domanda, confronta i valori di funzione più bassi e più alti dei vertici nello spazio dei parametri

dimensionale ... non è esplicitamente indicato nella domanda, ma la descrizione dell'algoritmo sulla pagina di Wikipedia collegata ( e nella carta originale) ordina i vertici

dal valore della funzione più basso al più alto.

N

$N$

N + 1

$N+1$

— Nate Pope,

@NatePope Quella era la mia intenzione sì, aggiungerò chiarimenti alla domanda. \

— JAD,

6

Il resoconto di questo "algoritmo downhill simplex" nelle versioni originali di Ricette numeriche è particolarmente lucido e utile. Ne citerò quindi parti pertinenti. Ecco lo sfondo:

Nella minimizzazione unidimensionale, è stato possibile racchiudere un minimo ... Ahimè! Non esiste una procedura analoga nello spazio multidimensionale. ... Il meglio che possiamo fare è dare un'ipotesi iniziale al nostro algoritmo; vale a dire un vettore di variabili indipendenti come primo punto da provare. L'algoritmo dovrebbe quindi farsi strada in discesa attraverso la complessità inimmaginabile di una topografia dimensionale fino a quando non incontra un minimo (almeno locale). $N$ $N$

Il metodo downhill simplex deve essere avviato non solo con un singolo punto, ma con punti, definendo un simplex iniziale. [Puoi considerare questi punti come un punto iniziale iniziale insieme a] dove sono vettori di unità e dove è una costante che è la tua ipotesi della caratteristica del problema scala di lunghezza. ... $N+1$ $P_0$
$\begin{matrix} (10.4.1) & P_{io} = P_{0} + λ e_{io} \end{matrix}$ $P_i = P_0 + \lambda e_i\tag{10.4.1}$ $e_i$ $N$ $\lambda$
La maggior parte dei passi semplicemente [sposta] il punto del simplex in cui la funzione è maggiore ("punto più alto") attraverso la faccia opposta del simplex verso un punto inferiore. ...

Ora per il problema in corso, terminando l'algoritmo. Nota la generalità dell'account: gli autori forniscono consigli intuitivi e utili per terminare qualsiasi ottimizzatore multidimensionale e quindi mostrano specificamente come si applica a questo particolare algoritmo. Il primo paragrafo risponde alla domanda che abbiamo di fronte:

I criteri di risoluzione possono essere delicati ... In genere siamo in grado di identificare un "ciclo" o "passaggio" del nostro algoritmo multidimensionale. È quindi possibile terminare quando la distanza del vettore spostata in quel passaggio è di entità leggermente inferiore rispetto a una certa tolleranza TOL. In alternativa, potremmo richiedere che la diminuzione del valore della funzione nella fase finale sia leggermente più piccola di una certa tolleranza FTOL. ...

$N$ $N+1$ $(10.4.1)$ $P_0$

I riavvii non dovrebbero mai essere molto costosi; il tuo algoritmo, dopo tutto, è converto al punto di riavvio una volta, e ora stai iniziando l'algoritmo già lì.

[Pagine 290-292.]

$x$ $y$ $T\gt 0$

\begin{matrix} (1) & \frac{| X | - | y |}{f (X, y)} = 2 \frac{| X | - | y |}{| X | + | y |} < T \end{matrix}

$\frac{|x| - |y|}{f(x,y)} = 2\frac{|x|-|y|}{|x| + |y|} \lt T\tag{1}$

$f(x,y) = (|x|+|y|)/2$

$(1)$

Riferimento

William H. Press et al. , Ricette numeriche: l'arte del calcolo scientifico. Cambridge University Press (1986). Visita http://numerical.recipes/ per le ultime edizioni.

— whuber
fonte

1

Grazie per le informazioni sul riavvio. Pensavo che questo stesse eseguendo l'algoritmo da diversi punti di partenza, ma in realtà sembra esserci di più.

— JAD

Non avevo mai pensato ai possibili significati di "riavvio". Nel contesto attuale, avrei potuto usare un termine come "lucidare" per "riavviare", ma forse non è nemmeno del tutto giusto. Il tipo di "riavvio" richiesto per il metodo simplex può essere piuttosto speciale.

— whuber

9

Non una risposta completa, ma troppo lunga per un commento e potrebbe metterti sulla buona strada.

Questo argomento è brevemente trattato a pagina 171 di "Metodi numerici compatti per computer" 2a edizione, di John C. Nash. E sembra essere il riferimento citato per la routine Nelder-Mead implementata nella optim()funzione di R. Citando la parte rilevante:

$t e S t = {[(Σ_{io = 1}^{n + 1} [S (B_{io}) - \bar{S}]^{2}) / n]}^{1 / 2}$ $\mathrm{test} = \left[ \left( \sum_{i=1}^{n+1}[S(b_i) - \bar{S}]^2 \right) / n \right]^{1/2}$ $\bar{S} = Σ_{io = 1}^{n + 1} S (B_{io}) / (n + 1) .$ $\bar{S} = \sum_{i=1}^{n+1} S(b_i)/(n+1).$

$S(.)$ $b$ $n+1$ $n$ $b_H$ $b_L$

$S(b_L)$ $S(b_H)$

Una rapida occhiata alla fonte optim()indica che utilizza la differenza tra i valori di funzione più alto e più basso (dei punti che definiscono il simplex) per determinare la convergenza: if (VH <= VL + convtol || VL <= abstol) break;dove si VHtrovano il valore alto e VLil valore basso. Questo viene fornito con l'avvertenza che ho dato una rapida occhiata alla fonte e probabilmente mi manca qualcosa.

Ora, l'opzione (1) sembra essere il secondo approccio sostenuto da Nash. Discute anche del problema riscontrato:

$(n+1)$ $(n-1)$ $n$

I riferimenti originali a cui Nash fa riferimento qui sono:

Nelder JA, Mead R. 1965. Un metodo simplex per minimizzare le funzioni. The Computer Journal 7: 308-313.

O'Neill R. 1971. Algoritmo AS 47: minimizzazione delle funzioni usando una procedura simplex. Statistica applicata 20: 338-345.

— Nate Pope
fonte

3

f_{min} (t) \equiv {min}_{tutti gli angoli} f (X_{io}, t)

$f_{\text{min}}(t) \equiv \text{min}_{\text{all corners}} \ f(X_i, t)$

# stop when you run out of patience, no improvement for say 10 iterations in a row:
if t > tbest + patience:
    message = "iter %d: f %g >= fbest %g" ...
    return message, fbest, xbest

$n+1$

il problema: terreno accidentato, forse con cattivo ridimensionamento o vincoli sciocchi
l'algoritmo, bilanciamento tra esplorazione e spostamento (e complessità del software)
la regola di arresto corretta

resta da vedere - i veri casi di test sono benvenuti.

(Una vera Stopiterclasse ha molte condizioni di arresto, oltre a patience; il più semplice è il tempo dell'orologio a muro.)

Vedi anche:
NLopt : molti algoritmi tra cui Nelder-Mead, facili da confrontare. Vedi in particolare le note sul Confronto degli algoritmi in
discesa : fermare la pazienzamin_improvement

— Denis
fonte