La cosa più semplice da fare sarebbe adattare un processo gaussiano con la funzione di covarianza non-ARD equivalente (di solito l'RBF) e confrontare i tassi di errore del test. Per molti problemi, una funzione di covarianza ARD ha prestazioni peggiori rispetto a una funzione di covarianza non ARD a causa del sovradimensionamento nell'ottimizzazione degli iperparametri. Poiché la covarianza RBF è un caso speciale della covarianza ARD, se l'RBF funziona meglio, è un'indicazione forte che il kernel ARD è troppo adatto (iniziare a ottimizzare i coefficienti ARD ai valori ottimali per la corrispondente covarianza RBF, questo è più veloce e aiuta anche a garantire che il problema con la covarianza ARD non sia dovuto solo ai minimi locali nella probabilità marginale). Questo è un problema molto più grande di quanto generalmente si apprezza.
Ho scritto un paio di articoli su questo:
GC Cawley e NLC Talbot, Prevenire l'over-fitting durante la selezione del modello tramite la regolarizzazione bayesiana degli iperparametri, Journal of Machine Learning Research, volume 8, pagine 841-861, aprile 2007 ( pdf )
e
GC Cawley e NLC Talbot, Over-fitting nella selezione dei modelli e conseguente pregiudizio nella selezione delle prestazioni, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, luglio 2010 ( pdf )
Il primo include alcuni esperimenti con i medici di medicina generale, che dimostrano che un eccesso di adattamento nella selezione dei modelli è un problema anche per i medici di base con selezione dei modelli basata sulla massimizzazione della probabilità marginale.
Un'analisi più approfondita sarebbe quella di valutare l'errore di prova del GP in ogni fase del processo di ottimizzazione della probabilità marginale. È molto probabile che si ottenga il classico segno distintivo di sovra-adattamento, in cui il criterio di selezione del modello sta diminuendo monotonicamente, ma l'errore di prova inizialmente diminuisce, ma poi ricomincia a salire quando il criterio di selezione del modello è sovra-ottimizzato (cf Figura 2a nel documento JMLR 2010).