Come si può rilevare se un processo gaussiano è troppo adatto?

Sto addestrando un processo gaussiano con un kernel ARD con molti parametri massimizzando la verosimiglianza marginale dei dati, anziché la convalida incrociata.

Ho il sospetto che sia troppo adatto. Come posso provare questo sospetto in un contesto bayesiano?

machine-learning cross-validation gaussian-process

— nickponline
fonte

La cosa più semplice da fare sarebbe adattare un processo gaussiano con la funzione di covarianza non-ARD equivalente (di solito l'RBF) e confrontare i tassi di errore del test. Per molti problemi, una funzione di covarianza ARD ha prestazioni peggiori rispetto a una funzione di covarianza non ARD a causa del sovradimensionamento nell'ottimizzazione degli iperparametri. Poiché la covarianza RBF è un caso speciale della covarianza ARD, se l'RBF funziona meglio, è un'indicazione forte che il kernel ARD è troppo adatto (iniziare a ottimizzare i coefficienti ARD ai valori ottimali per la corrispondente covarianza RBF, questo è più veloce e aiuta anche a garantire che il problema con la covarianza ARD non sia dovuto solo ai minimi locali nella probabilità marginale). Questo è un problema molto più grande di quanto generalmente si apprezza.

Ho scritto un paio di articoli su questo:

GC Cawley e NLC Talbot, Prevenire l'over-fitting durante la selezione del modello tramite la regolarizzazione bayesiana degli iperparametri, Journal of Machine Learning Research, volume 8, pagine 841-861, aprile 2007 ( pdf )

GC Cawley e NLC Talbot, Over-fitting nella selezione dei modelli e conseguente pregiudizio nella selezione delle prestazioni, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, luglio 2010 ( pdf )

Il primo include alcuni esperimenti con i medici di medicina generale, che dimostrano che un eccesso di adattamento nella selezione dei modelli è un problema anche per i medici di base con selezione dei modelli basata sulla massimizzazione della probabilità marginale.

Un'analisi più approfondita sarebbe quella di valutare l'errore di prova del GP in ogni fase del processo di ottimizzazione della probabilità marginale. È molto probabile che si ottenga il classico segno distintivo di sovra-adattamento, in cui il criterio di selezione del modello sta diminuendo monotonicamente, ma l'errore di prova inizialmente diminuisce, ma poi ricomincia a salire quando il criterio di selezione del modello è sovra-ottimizzato (cf Figura 2a nel documento JMLR 2010).

— Dikran Marsupial
fonte

Fantastico grazie - Sto leggendo il primo ora. Hai trovato un modo più efficace per regolarizzare nuovamente il sovra-adattamento con kernel con molti parametri come ARD se il termine della complessità del modello nella probabilità marginale non è sufficiente per prevenire un eccesso di adattamento?

— nickponline,

Sospetto che la cosa più robusta da fare sarebbe emarginare gli iperparametri usando i metodi Markov Chain Monte Carlo. Per le dimensioni del set di dati per cui i GP tendono ad abituarsi (fino a qualche migliaio di schemi) sospetto che un eccesso di adattamento della probabilità marginale sia quasi inevitabile. L'ottimizzazione IMHO è la radice di tutto il male nelle statistiche, ogni volta che ottimizzi qualcosa corri il rischio di un eccesso di adattamento. L'approccio bayesiano è molto meglio in questo senso, ma corri invece il rischio di difficoltà perché i priori hanno torto :-(

— Dikran Marsupial

@DikranMarsupial Esistono ricerche più recenti su come evitare un overfitting utilizzando i metodi GP variazionali?

— imsrgadich,