Prevenire Pareto ha smesso di campionare l'importanza (PSIS-LOO)


10

Di recente ho iniziato a utilizzare Pareto per semplificare l'importanza del campionamento con convalida incrociata (PSIS-LOO), descritto in questi documenti:

  • Vehtari, A., & Gelman, A. (2015). Pareto ha livellato il campionamento di importanza. prestampa arXiv ( collegamento ).
  • Vehtari, A., Gelman, A., e Gabry, J. (2016). Pratica valutazione del modello bayesiano mediante validazione incrociata con esclusione e WAIC. prestampa arXiv ( collegamento )

Ciò rappresenta un approccio molto allettante per la valutazione di modelli fuori campione in quanto consente di eseguire LOO-CV con una singola corsa MCMC ed è presumibilmente migliore dei criteri di informazione esistenti come WAIC.

PSIS-LOO ha una diagnostica per dirti se l'approssimazione è affidabile, in particolare data dagli esponenti stimati delle distribuzioni di Pareto adattati alle code delle distribuzioni empiriche di peso di importanza (un peso per punto dati). In breve, se un peso stimato , possono succedere cose brutte.K^ioK^io0.7

Purtroppo, ho scoperto che nella mia applicazione di questo metodo al mio problema, per la maggior parte dei modelli di interesse trovo che una grande frazione del K^io»0.7 . Non sorprende che alcune delle verosimiglianze LOO riportate fossero ovviamente prive di senso (rispetto ad altri set di dati). Come doppio controllo, ho eseguito una convalida incrociata tradizionale (e dispendiosa in termini di tempo) di 10 volte, trovando che in effetti nel caso precedente PSIS-LOO stava dando risultati terribilmente sbagliati (al contrario, i risultati erano in ottimo accordo con 10 -piegato CV per i modelli in cui all K^io«0.7 ). Per la cronaca, sto usando l' implementazione MATLAB di PSIS-LOO di Aki Vehtari.

Forse sono solo molto sfortunato per il fatto che il mio attuale e primo problema in cui applico questo metodo è "difficile" per PSIS-LOO, ma sospetto che questo caso possa essere relativamente comune. Per casi come il mio, il giornale Vehtary, Gelman e Gabry dice semplicemente:

Anche se la stima PSIS ha una varianza finita, quando , l'utente dovrebbe considerare il campionamento direttamente da per i problematici , usa -fold cross- convalida o utilizzare un modello più solido.K^>0.7p(θS|y-io)ioK

Si tratta di soluzioni ovvie ma non proprio ideali in quanto richiedono tutto il tempo o richiedono ulteriori armeggi (apprezzo il fatto che MCMC e la valutazione del modello siano incentrati sul giocherellare, ma tanto meno meglio).

Esiste un metodo generale che possiamo applicare in anticipo per cercare di evitare il fallimento di PSIS-LOO? Ho alcune idee provvisorie, ma mi chiedo se esiste già una soluzione empirica che le persone hanno adottato.

Risposte:


8

Per la cronaca, ho pubblicato una domanda simile alla mailing list degli utenti Stan , che puoi trovare qui . Mi è stato risposto da uno degli autori del documento originale PSIS-LOO e da altri collaboratori di Stan. Quello che segue è il mio riepilogo personale.

La risposta breve è che non esistono metodi generali noti per impedire il fallimento di PSIS-LOO. Se PSIS-LOO fallisce, di solito è perché il modello ha dei problemi e la sua correzione è necessariamente lasciata all'utente.

In particolare, il motivo per cui PSIS-LOO potrebbe fallire è in genere dovuto al fatto che una o più distribuzioni LOO sono spostate e / o più ampie rispetto al posteriore completo, probabilmente a causa di osservazioni influenti e l'importanza della distribuzione del campionamento collassa a uno o alcuni punti.

Stavo pensando che potresti provare ad adottare una qualche forma di approccio di tempera posteriore parallelo per risolvere questo problema. L'idea non è necessariamente sbagliata, ma mi è stato fatto notare che:

  • il temperamento posteriore del libro di testo richiederebbe comunque un sacco di manipolazione caso per caso per trovare i giusti livelli di temperatura, poiché non esiste un modo ovvio né noto per farlo (per inciso, per questo motivo Stan non include il temperamento parallelo);
  • se si utilizzano più di due livelli di temperatura (poiché potrebbe essere necessario avere un approccio solido), il costo computazionale finale si avvicina a quello della convalida incrociata K-fold o dell'esecuzione di MCMC sulle distribuzioni LOO problematiche.

In breve, se PSIS-LOO fallisce, sembra difficile ottenere un metodo solido e generale come altre semplici patch; ecco perché Vehtari, Gelman e Gabry hanno suggerito questi metodi secondo la citazione che ho pubblicato nella mia domanda originale.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.