L'ottimizzazione non è il mio campo, ma per quanto ne so, l'ottimizzazione efficiente ed efficace dell'iperparametro al giorno d'oggi ruota pesantemente attorno alla costruzione di un modello surrogato. Man mano che i modelli aumentano in complessità, diventano una scatola nera più opaca. Questo è il caso delle reti neurali profonde e anche degli alberi presumibilmente complessi. Un modello surrogato tenta di regredire lo spazio sottostante all'interno di quella scatola nera. Basato su una varietà di tecniche di campionamento, sondano lo spazio dell'iperparametro e tentano di costruire una funzione che rappresenti il vero spazio dell'iperparametro sottostante.
L'ottimizzazione bayesiana si concentra sul modello surrogato e su come questo modello è costruito è cruciale per BO. Anche per BO è fondamentale scegliere una buona funzione di perdita.
Penso che le prestazioni tra ricerca casuale e ricerca bayesiana variano da set di dati a set di dati e da modello a modello. Bergstra & Bengio (2012) hanno avanzato una forte argomentazione per la ricerca casuale sulla ricerca della griglia. Shahriari et al. (2016) rappresentano un valido esempio per BO. Le strategie Hyperband basate sul modello possono potenzialmente funzionare meglio di BO, specialmente per dimensioni elevate, tuttavia si tratta semplicemente di esplorazione, non di sfruttamento. Ciò può facilmente comportare un arresto troppo anticipato. Tuttavia, ci sono stati sforzi per combinare Hyperband e BO .
Ho avuto un buon successo con scikit-optimisation, nonostante ci sia stato un po 'non implementato. È facile da prototipare e può facilmente interfacciarsi con scikit-learn.
Bergstra, J., & Bengio, Y. (2012). Ricerca casuale per l'ottimizzazione dell'iperparametro. Journal of Machine Learning Research, 13 (febbraio), 281-305.
Shahriari, B., Swersky, K., Wang, Z., Adams, RP, & De Freitas, N. (2016). Portare l'umano fuori dal giro: una revisione dell'ottimizzazione bayesiana. Atti dell'IEEE, 104 (1), 148-175.