Studio teorico dei metodi di discesa delle coordinate


14

Sto preparando del materiale didattico sull'euristica per l'ottimizzazione e ho esaminato i metodi di discesa delle coordinate. L'impostazione è qui una funzione multivariata che si desidera ottimizzare. f ha la proprietà limitata a ogni singola variabile, è facile da ottimizzare. Quindi la discesa delle coordinate procede scorrendo ciclicamente le coordinate, fissando tutto tranne quello scelto e minimizzando lungo quella coordinata. Alla fine, i miglioramenti si arrestano lentamente e si termina.ff

La mia domanda è: esiste qualche studio teorico sui metodi di discesa delle coordinate che parla dei tassi di convergenza e delle proprietà di che fanno funzionare bene il metodo, e così via? Ovviamente, non mi aspetto risposte completamente generali, ma risposte che illuminino casi in cui l'euristica fa bene sarebbe utile.f

A parte: la tecnica di ottimizzazione alternata utilizzata per -means può essere vista come un esempio di discesa delle coordinate e l' algoritmo di Frank-Wolfe sembra correlato (ma non è un esempio diretto del framework)k


Almeno come descritto nel documento di Ken Clakrson kenclarkson.org/sga/p.pdf , Frank-Wolfe è molto simile. L'unica differenza sembra essere che in FW scegli la coordinata migliore su cui scendere. Ha la stessa proprietà di scarsità che menziona Matus.
Sasho Nikolov,

2
Sebastien Bubeck ha una monografia recente sull'ottimizzazione convessa e la complessità dell'iterazione per vari metodi. Può essere un posto utile in cui cercare. blogs.princeton.edu/imabandit/2014/05/16/…
Chandra Chekuri,

Risposte:


24

(Modifica note: l'ho riorganizzato dopo aver perso la testa.)

La letteratura sulla discesa delle coordinate può essere un po 'difficile da rintracciare. Ecco alcuni motivi per questo.

  1. Molte delle proprietà note dei metodi di coordinate sono catturate nei teoremi ombrello per metodi di discesa più generali. Due esempi di questo, di seguito esposti, sono la convergenza veloce sotto forte convessità (sospeso per qualsiasi ripida discesa), e la convergenza di questi metodi (solitamente attribuita a Zoutendijk).lp

  2. La denominazione non è standard. Anche il termine "discesa più ripida" non è standard. Potresti avere successo cercando su uno qualsiasi dei termini "discesa ciclica delle coordinate", "discesa delle coordinate", "Gauss-Seidel", "Gauss-Southwell". l'utilizzo non è coerente.

  3. nn

O(ln(1/ϵ))lp

Vincoli. Senza una forte convessità, devi iniziare a stare un po 'attento. Non hai detto nulla sui vincoli, e quindi in generale, l'infimo potrebbe non essere raggiungibile. Dirò brevemente sull'argomento dei vincoli che l'approccio standard (con i metodi di discesa) è di proiettare sul proprio vincolo impostare ogni iterazione per mantenere la fattibilità, o usare barriere per inserire i vincoli nella propria funzione oggettiva. Nel primo caso, non so come giochi con la discesa delle coordinate; nel caso di quest'ultimo, funziona bene con la discesa delle coordinate e queste barriere possono essere fortemente convesse.

Più specificamente per coordinare i metodi, piuttosto che proiettare, molte persone semplicemente fanno in modo che l'aggiornamento delle coordinate mantenga la fattibilità: questo, ad esempio, è esattamente il caso dell'algoritmo Frank-Wolfe e delle sue varianti (cioè usandolo per risolvere gli SDP).

Noterò anche brevemente che l'algoritmo SMO per SVM può essere visto come un metodo di discesa delle coordinate, in cui si aggiornano due variabili contemporaneamente e mantenendo un vincolo di fattibilità mentre lo si fa. La scelta delle variabili è euristica in questo metodo, quindi le garanzie sono proprio le garanzie cicliche. Non sono sicuro che questa connessione appaia nella letteratura standard; Ho appreso del metodo SMO dagli appunti del corso di Andrew Ng e li ho trovati abbastanza puliti.

n

O(ln(1/ϵ))

Ci sono alcuni risultati più recenti sulla discesa delle coordinate, ho visto cose su arXiv. Inoltre, luo & tseng hanno alcuni articoli più recenti. ma questa è la roba principale.

i=1mg(ai,λ)g(ai)1mλexp(1/ϵ2)O(1/ϵ)

Il problema con aggiornamenti esatti. Inoltre, molto spesso non si dispone di un aggiornamento a coordinate singole a forma chiusa. Oppure la soluzione esatta potrebbe semplicemente non esistere. Ma per fortuna, ci sono molti metodi di ricerca di linee che ottengono sostanzialmente le stesse garanzie di una soluzione esatta. Questo materiale può essere trovato in testi di programmazione non lineari standard, ad esempio nei libri di Bertsekas o Nocedal & Wright menzionati sopra.

Vis a vis il tuo secondo paragrafo: quando questi funzionano bene. Innanzitutto, molte delle analisi sopra menzionate per il lavoro a gradiente per la discesa delle coordinate. Quindi perché non usare sempre la discesa delle coordinate? La risposta è che per molti problemi in cui è applicabile la discesa del gradiente, è anche possibile utilizzare i metodi di Newton, per i quali è possibile dimostrare una convergenza superiore. Non conosco un modo per ottenere il vantaggio di Newton con la discesa delle coordinate. Inoltre, l'alto costo dei metodi Newton può essere mitigato con gli aggiornamenti di Quasinewton (vedere ad esempio LBFGS).

l0kkkkf


2
Wow. questa è una risposta davvero completa. Grazie !
Suresh Venkat,


2

Abbiamo appena pubblicato un articolo su arXiv ( http://arxiv.org/abs/1201.1214 ) che dimostra limiti inferiori generici per "algoritmi statistici" per problemi di ottimizzazione, con ogni "problema" che ha il suo limite inferiore a seconda del suo varie proprietà.

La discesa coordinata (e praticamente qualsiasi altra cosa a cui possiamo pensare) può essere vista come un algoritmo statistico nel nostro framework, quindi speriamo che questo articolo abbia alcuni risultati che ti interesseranno.


Freddo. Lo esaminerò.
Suresh Venkat,

2

Si noti che nell'ottimizzazione, "tasso di convergenza" di solito significa comportamento asintotico. Cioè, la tariffa si applica solo al vicinato di soluzioni ottimali. In tal senso, Luo & Tseng hanno dimostrato tassi di convergenza lineari per alcune funzioni oggettive non fortemente convesse nel documento "Sulla convergenza del metodo di discesa delle coordinate per la minimizzazione convessa differenziabile".

Il tasso di convergenza non asintotico, noto anche come "complessità dell'iterazione", è generalmente più utile per limitare il numero di iterazioni degli algoritmi di minizzazione. Per funzioni oggettive fortemente convesse, la complessità dell'iterazione dei metodi ciclici di discesa delle coordinate è già mostrata in Luo & Tseng . Per essere precisi, abbiamo mostrato la complessità dell'iterazione per i metodi ciclici di discesa delle coordinate su problemi come la doppia forma di SVM e i metodi di Gauss-Seidel. Inoltre, i risultati coprono anche altri metodi di discesa fattibili tra cui la discesa gradiente e gli amici. limiti di errore e nell'analisi di convergenza dei metodi di discesa fattibili: un approccio generale se si utilizza un limite di errore globale. Per problemi non fortemente convessi, abbiamo alcuni nuovi risultati complessità di iterazione di metodi di discesa fattibili per l'ottimizzazione convessa

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.