Convalida incrociata vs Bayes empirici per la stima di iperparametri


20

Dato un modello gerarchico , voglio che un processo in due fasi si adatti al modello. Innanzitutto, correggi una manciata di iperparametri , quindi fai l'inferenza bayesiana sul resto dei parametri . Per correggere gli iperparametri sto prendendo in considerazione due opzioni.p(X|φ,θ)θφ

  1. Usa Empirical Bayes (EB) e massimizza la probabilità marginale (integrando il resto del modello che contiene parametri dimensionali elevati).p(Tutti i dati|θ)
  2. Usa tecniche di convalida incrociata (CV) come -fold cross validation per scegliere che massimizza la probabilità .Kθp(dati di test|dati di allenamento,θ)

Il vantaggio di EB è che posso usare tutti i dati contemporaneamente, mentre per CV devo (potenzialmente) calcolare la probabilità del modello più volte e cercare . Le prestazioni di EB e CV sono comparabili in molti casi (*) e spesso EB è più veloce da stimare.θ

Domanda: esiste una base teorica che collega i due (diciamo, EB e CV sono gli stessi nel limite dei dati di grandi dimensioni)? O collega EB ad alcuni criteri di generalizzabilità come il rischio empirico? Qualcuno può indicare un buon materiale di riferimento?


(*) A titolo di illustrazione, ecco una figura del Machine Learning di Murphy , Sezione 7.6.4, in cui afferma che per la regressione della cresta entrambe le procedure producono risultati molto simili:

murphy - bayes empirici vs CV

Murphy afferma anche che il principale vantaggio pratico dell'empirico Bayes (lo chiama "procedura di prova") rispetto al CV è quando costituito da molti iperparametri (ad esempio penalità separata per ogni caratteristica, come nella determinazione automatica della pertinenza o ARD). Lì non è possibile utilizzare CV.θ


Puoi descrivere più in dettaglio cosa stai facendo per il metodo di convalida incrociata? Stai correggendo e quindi utilizzando i dati di allenamento per stimare gli altri parametri prima della convalida? θ
Neil G

@NeilG massimizzando la somma della verosimiglianza dei dati predittivi marginali di log sui set di validazione incrociata (k è integrato).
Memming

1
Se è integrato entrambe le volte, allora qual è la differenza tra CV ed EB? K
Neil G

2
Ottima domanda Mi sono preso la libertà di aggiungere una figura del libro di testo di Murphy alla tua domanda per illustrare il tuo punto su due procedure spesso comparabili. Spero non ti dispiaccia questa aggiunta.
ameba dice di reintegrare Monica il

Risposte:


16

Dubito che ci sarà un collegamento teorico che afferma che la massimizzazione delle prove e del CV sono asintoticamente equivalenti poiché l'evidenza ci dice la probabilità dei dati dati i presupposti del modello . Pertanto, se il modello non viene specificato correttamente, le prove potrebbero essere inaffidabili. La convalida incrociata d'altra parte fornisce una stima della probabilità dei dati, indipendentemente dal fatto che le ipotesi di modellazione siano corrette o meno. Ciò significa che l'evidenza può essere una guida migliore se le ipotesi di modellazione sono corrette utilizzando meno dati, ma la convalida incrociata sarà robusta rispetto alle specifiche errate del modello. Il CV è assintoticamente imparziale, ma suppongo che le prove non lo siano a meno che le ipotesi del modello non siano esattamente corrette.

Questa è essenzialmente la mia intuizione / esperienza; Sarei anche interessato a conoscere la ricerca al riguardo.

Si noti che per molti modelli (ad es. Regressione della cresta, processi gaussiani, regressione della cresta del kernel / LS-SVM ecc.) È possibile eseguire una convalida incrociata con una sola uscita almeno in modo efficiente quanto la stima delle prove, quindi non esiste necessariamente un calcolo vantaggio lì.

Addendum: Sia la probabilità marginale che le stime delle prestazioni di convalida incrociata sono valutate su un campione finito di dati, e quindi c'è sempre la possibilità di un adattamento eccessivo se un modello è ottimizzato ottimizzando entrambi i criteri. Per piccoli campioni, la differenza nella varianza dei due criteri può decidere quale funziona meglio. Vedi il mio documento

Gavin C. Cawley, Nicola LC Talbot, "Sull'adattamento eccessivo nella selezione dei modelli e conseguente pregiudizio nella selezione delle prestazioni", Journal of Machine Learning Research, 11 (lug): 2079-2107, 2010. ( pdf )


Perché dici che il CV è solido rispetto a un modello mal specificato? Nel suo caso, non esiste tale protezione poiché la convalida incrociata sta cercando nello stesso spazio in cui EB sta calcolando una probabilità. Se i suoi presupposti di modellazione sono sbagliati, la convalida incrociata non lo salverà.
Neil G

1
φφθ

ps Ho eseguito un'analisi per evitare l'eccessivo adattamento nelle reti neurali con la regolarizzazione bayesiana in cui i parametri di regolarizzazione sono sintonizzati tramite la massimizzazione della probabilità marginale. Ci sono situazioni in cui questo funziona molto male (peggio che non avere alcuna regolarizzazione). Questo sembra essere un problema di specifiche errate del modello.
Dikran Marsupial

Può ottenere lo stesso "indicatore delle prestazioni di generalizzazione" controllando la probabilità logaritmica totale dei dati data la distribuzione stimata restituita da EB (che sarà uguale all'entropia di tale distribuzione). Non c'è modo di batterlo in questo caso perché è la soluzione analitica a questo problema. Non vedo perché la convalida incrociata avrebbe senso quando puoi calcolare una probabilità per EB.
Neil G

2
@probabilityislogic, non sono del tutto sicuro di cosa stai arrivando (problema senza dubbio alla mia fine!; o). Posso dirti per esperienza pratica che il problema è molto reale. Ho lavorato su problemi nella selezione del modello per diversi anni e ho riscontrato molti problemi in cui massimizzare la probabilità marginale si rivela una pessima idea. La convalida incrociata funziona altrettanto bene per la maggior parte dei set di dati, ma laddove si comporta male, raramente si comporta in modo catastrofico come talvolta accade con la massimizzazione delle prove.
Dikran Marsupial

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.