Di recente ho iniziato a utilizzare Pareto per semplificare l'importanza del campionamento con convalida incrociata (PSIS-LOO), descritto in questi documenti:
- Vehtari, A., & Gelman, A. (2015). Pareto ha livellato il campionamento di importanza. prestampa arXiv ( collegamento ).
- Vehtari, A., Gelman, A., e Gabry, J. (2016). Pratica valutazione del modello bayesiano mediante validazione incrociata con esclusione e WAIC. prestampa arXiv ( collegamento )
Ciò rappresenta un approccio molto allettante per la valutazione di modelli fuori campione in quanto consente di eseguire LOO-CV con una singola corsa MCMC ed è presumibilmente migliore dei criteri di informazione esistenti come WAIC.
PSIS-LOO ha una diagnostica per dirti se l'approssimazione è affidabile, in particolare data dagli esponenti stimati delle distribuzioni di Pareto adattati alle code delle distribuzioni empiriche di peso di importanza (un peso per punto dati). In breve, se un peso stimato , possono succedere cose brutte.
Purtroppo, ho scoperto che nella mia applicazione di questo metodo al mio problema, per la maggior parte dei modelli di interesse trovo che una grande frazione del . Non sorprende che alcune delle verosimiglianze LOO riportate fossero ovviamente prive di senso (rispetto ad altri set di dati). Come doppio controllo, ho eseguito una convalida incrociata tradizionale (e dispendiosa in termini di tempo) di 10 volte, trovando che in effetti nel caso precedente PSIS-LOO stava dando risultati terribilmente sbagliati (al contrario, i risultati erano in ottimo accordo con 10 -piegato CV per i modelli in cui all ). Per la cronaca, sto usando l' implementazione MATLAB di PSIS-LOO di Aki Vehtari.
Forse sono solo molto sfortunato per il fatto che il mio attuale e primo problema in cui applico questo metodo è "difficile" per PSIS-LOO, ma sospetto che questo caso possa essere relativamente comune. Per casi come il mio, il giornale Vehtary, Gelman e Gabry dice semplicemente:
Anche se la stima PSIS ha una varianza finita, quando , l'utente dovrebbe considerare il campionamento direttamente da per i problematici , usa -fold cross- convalida o utilizzare un modello più solido.
Si tratta di soluzioni ovvie ma non proprio ideali in quanto richiedono tutto il tempo o richiedono ulteriori armeggi (apprezzo il fatto che MCMC e la valutazione del modello siano incentrati sul giocherellare, ma tanto meno meglio).
Esiste un metodo generale che possiamo applicare in anticipo per cercare di evitare il fallimento di PSIS-LOO? Ho alcune idee provvisorie, ma mi chiedo se esiste già una soluzione empirica che le persone hanno adottato.