Vantaggi dell'ottimizzazione dello sciame di particelle rispetto all'ottimizzazione bayesiana per l'ottimizzazione dell'iperparametro?


18

Esiste una sostanziale ricerca contemporanea sull'ottimizzazione bayesiana (1) per la messa a punto di iperparametri ML. La motivazione principale qui è che è richiesto un numero minimo di punti dati per fare scelte informate su quali punti valgono la pena provare (le chiamate di funzione obiettive sono costose, quindi fare meno è meglio) perché la formazione di un modello richiede molto tempo - alcuni con modestia -grandi problemi SVM su cui ho lavorato possono richiedere tra minuti e ore per il completamento.

D'altra parte, Optunity è un'implementazione di sciami di particelle da affrontare per lo stesso compito. Non ho una familiarità schiacciante con il PSO, ma sembra che debba essere meno efficiente nel senso di richiedere un numero maggiore di punti di prova, e quindi valutazioni oggettive della funzione, per valutare la superficie dell'iperparametro.

Mi manca un dettaglio chiave che rende PSO preferito a BO nel contesto dell'apprendimento automatico? Oppure la scelta tra i due è sempre intrinsecamente contestuale per l'attività di tuning dell'iperparametro?


(1) Shahriari et al, "Portare l'umano fuori dal giro: una revisione dell'ottimizzazione bayesiana".


non ha bisogno del gradiente. funziona con discontinuità. moderatamente efficiente. gestisce diverse dimensioni. gestisce bene il rumore. Ha una robustezza integrata dello stimatore.
EngrStudent - Ripristina Monica

@EngrStudent Puoi dire tutte queste cose su BO, tranne BO sembra essere più efficiente perché richiede un numero minore di valutazione delle funzioni, almeno secondo i miei calcoli. Non sto chiedendo di PSO in generale, sto chiedendo i suoi meriti rispetto a BO.
Sycorax dice di reintegrare Monica l'

1
Non abbastanza istruito sull'argomento per rendere questa una risposta definitiva, ma penso che l'ottimizzazione bayesiana dovrebbe subire lo stesso destino degli ottimizzatori più efficienti con problemi altamente multimodali (vedi: 95% dei problemi di apprendimento automatico): si zeri su il minimo locale più vicino senza "sondare" lo spazio globale. Penso che Particle Swarm avrebbe più fortuna a trovare minimi non locali.
Cliff AB

2
Mi scuso per il mio arrivo in ritardo alla festa, non sono sicuro di come sia riuscito a trascurare una domanda su Optunity per così tanto tempo! :-)
Marc Claesen

1
@MarcClaesen Devo ammetterlo, speravo che a un certo punto avresti trovato il tempo di rispondere. In ritardo o no, penso che siamo tutti contenti che tu sia arrivato.
Sycorax dice Ripristina Monica

Risposte:


25

Come sviluppatore principale di Optunity aggiungerò i miei due centesimi.

Abbiamo fatto ampi parametri di riferimento confrontando Optunity con i solutori bayesiani più popolari (ad esempio, hyperopt, SMAC, bayesopt) su problemi del mondo reale, e i risultati indicano che l'OSP in realtà non è meno efficiente in molti casi pratici. Nel nostro benchmark, che consiste nell'ottimizzare i classificatori SVM su vari set di dati, Optunity è in realtà più efficiente di hyperopt e SMAC, ma leggermente meno efficiente di BayesOpt. Mi piacerebbe condividere i risultati qui, ma aspetterò fino a quando Optunity sarà finalmente pubblicato in JMLR (in corso di revisione da oltre un anno, quindi non trattenere il respiro ...).

Come indichi, una maggiore efficienza è un punto di vendita comunemente usato per l'ottimizzazione bayesiana, ma in pratica trattiene l'acqua solo se le ipotesi dei modelli surrogati sottostanti sono valide, il che è tutt'altro che banale. Nei nostri esperimenti, il semplicissimo solutore PSO di Optunity è spesso competitivo con complessi approcci bayesiani in termini di numero di valutazioni delle funzioni. I risolutori bayesiani funzionano molto bene se forniti con buoni priori, ma con un precedente non informativo non vi è praticamente alcun vantaggio strutturale rispetto ai metodi metauristici come il PSO in termini di efficienza.

Un grande punto di forza per PSO è il fatto che è imbarazzantemente parallelo. L'ottimizzazione bayesiana è spesso difficile da parallelizzare, a causa della sua natura intrinsecamente sequenziale (l'implementazione di hyperopt è l'unica vera eccezione). Date le opportunità di distribuzione, che sta diventando la norma, Optunity prende rapidamente il comando nel tempo dell'orologio da parete per ottenere buone soluzioni.

Un'altra differenza chiave tra Optunity e la maggior parte delle altre librerie dedicate di ottimizzazione dell'iperparametro è il pubblico target: Optunity ha l'interfaccia più semplice e si rivolge agli esperti di apprendimento non automatico, mentre la maggior parte delle altre biblioteche richiede una certa comprensione dell'ottimizzazione bayesiana per un uso efficace (ovvero rivolto a specialisti).

Il motivo per cui abbiamo creato la libreria è che, nonostante esistano metodi dedicati di ottimizzazione dell'iperparametro, nella pratica mancano di adozione. La maggior parte delle persone non si sta ancora sintonizzando, lo fa manualmente o tramite approcci ingenui come la griglia o la ricerca casuale. A nostro avviso, un motivo chiave per questo è il fatto che le librerie esistenti prima dello sviluppo di Optunity erano troppo difficili da usare in termini di installazione, documentazione, API e spesso limitate a un singolo ambiente.


4
Una risposta più informata che potremmo ottenere! Sono curioso: dici che il solutore PSO è competitivo con gli approcci di ottimizzazione bayesiana. Questo per dire che l' esecuzione di PSO in parallelo risulta essere più veloce dell'ottimizzazione di Bayseian eseguita in sequenza ? Non cercare di essere cattivo, ma è una distinzione importante per me capire.
Cliff AB

2
No, entrambi corrono in sequenza. Nei nostri esperimenti (ottimizzazione degli SVM), l'efficienza dell'OSP e dell'ottimizzazione bayesiana è competitiva in termini di numero di valutazioni delle funzioni. Non abbiamo confrontato l'efficienza in termini di tempo dell'orologio da parete nelle impostazioni distribuite in quanto sarebbe un po 'un colpo economico poiché molti metodi di ottimizzazione bayesiana semplicemente non possono farlo.
Marc Claesen,

Interessante. Qualche idea sul perché? Superficie iperparametrica instabile?
Cliff AB

3
Penso che ci siano diverse ragioni. Per uno, le superfici dell'iperparametro hanno molti optima locali (ad es., A causa di effetti del campione finiti, pieghe di validazione incrociata, casualità intrinseca in alcuni approcci di apprendimento). In secondo luogo, l'ottimizzazione bayesiana si basa sulla costruzione di accurate funzioni surrogate oggettive, il che non è un compito facile fino a quando la funzione obiettivo non è stata campionata molte volte. L'ottimizzazione bayesiana richiede un po 'di tempo prima che la convergenza acceleri (un dettaglio spesso omesso). A quel punto anche metodi metauristici come il PSO hanno raggiunto la fase di ricerca locale. Il PSO è molto bravo nella ricerca locale.
Marc Claesen,

4
+1 per una risposta eccellente. Ho creato il mio software BO, che devo ammettere che è principalmente un progetto di vanità a questo punto, quindi capisco come la procedura BO funzioni in dettaglio; Sono contento di poter iniziare a grattare la superficie di cos'altro sta succedendo nel mondo di tuning dell'iperparametro. La tua osservazione sugli approcci ingenui mi colpisce davvero, poiché uno dei miei vecchi programmi di ottimizzazione ingenui ha messo a punto un modello per una settimana senza fine in vista ... Grazie per il tuo contributo e sono sicuro che avrò più domande una volta digerito questo.
Sycorax dice Ripristina Monica

0

La risposta dipende dal problema e non può essere fornita senza contesto aggiuntivo. In genere, la risposta sarebbe la seguente. L'ottimizzazione bayesiana è più adatta a problemi a bassa dimensione con il budget computazionale fino a dire 10x-100x il numero di variabili. Il PSO può essere abbastanza efficiente per budget molto più grandi, ma non è all'avanguardia nella sua nicchia.


I commenti non sono per una discussione estesa; questa conversazione è stata spostata in chat .
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.