Vorrei suggerire il libro Bayesian Data Analysis come un'ottima fonte per rispondere a questa domanda (in particolare il capitolo 6) e tutto ciò che sto per dire. Ma uno dei soliti modi in cui i bayesiani attaccano questo problema è usando i valori P predittivi posteriori (PPP). Prima di passare a come i PPP avrebbero risolto questo problema, vorrei prima definire la seguente notazione:
Sia i dati osservati e sia il vettore dei parametri. Definiamo come i replicati dati che avrebbero potuto stati osservati, o, a pensare in modo predittivo, in quanto i dati che avrebbero vedere domani se l'esperimento che ha prodotto oggi sono stati replicati con lo stesso modello e lo stesso valore di che ha prodotto i dati osservati.θ y rep y θyθyrepyθ
Nota, definiremo la distribuzione di dato lo stato attuale delle conoscenze con la distribuzione predittiva posteriore
p ( y rep | y ) = ∫ Θ p ( y rep | θ ) p ( θ | y ) d θyrep
p ( yrappresentante| y) = ∫Θp ( yrappresentante| θ)p(θ | y) dθ
Ora, possiamo misurare la discrepanza tra il modello e i dati definendo le quantità di prova , gli aspetti dei dati che desideriamo verificare. Una quantità di prova, o misura di discrepanza , , è un riepilogo scalare di parametri e dati che viene utilizzato come standard quando si confrontano i dati con simulazioni predittive. Le quantità di test svolgono il ruolo nel modello bayesiano verificando che le statistiche di test svolgano nei test classici. Definiamo la notazione per una statistica di test, che è una quantità di test che dipende solo dai dati; nel contesto bayesiano, possiamo generalizzare le statistiche dei test per consentire la dipendenza dai parametri del modello nella loro distribuzione posteriore.T ( y )T( y, θ )T( y)
Classicamente, il valore p per la statistica test è
dove viene presa la probabilità sulla distribuzione di con riparato.p C = Pr ( T ( y rep ) ≥ T ( y ) | θ ) y rep θT( y)
pC= Pr ( T( yrappresentante) ≥ T( y) | θ )
yrappresentanteθ
Dal punto di vista bayesiano, la mancanza di adattamento dei dati rispetto alla distribuzione predittiva posteriore può essere misurata dalla probabilità dell'area della coda, o valore p, della quantità di prova e calcolata usando simulazioni posteriori di . Nell'approccio bayesiano, le quantità di prova possono essere funzioni di parametri sconosciuti, nonché dati poiché la quantità di prova viene valutata in base ai prelievi dalla distribuzione posteriore dei parametri sconosciuti.( θ , yrappresentante)
Ora, possiamo definire il valore p bayesiano (PPP) come la probabilità che i dati replicati possano essere più estremi dei dati osservati, misurati dalla quantità del test:
dove la probabilità è presa sulla distribuzione posteriore di e sulla distribuzione predittiva posteriore di (che è, la distribuzione congiunta, ):
dove è la funzione indicatore. In pratica, tuttavia, di solito calcoliamo la distribuzione predittiva posteriore usando simulazioni.
pB= Pr ( T( yrappresentante, θ ) ≥ T( y, θ ) | y)
θyrappresentantep ( θ , yrappresentante| y)pB= ∬ΘioT( yrappresentante, θ) ≥ T(y| θ )p (yrappresentante| θ)p(θ | y)dyrappresentantedθ ,
io
Se abbiamo già, diciamo, simulazioni dalla distribuzione posteriore di , allora possiamo semplicemente trarre uno dalla distribuzione predittiva per ogni simulato ; ora abbiamo attira dalla distribuzione posteriore unita, . Il controllo predittivo posteriore è il confronto tra le quantità di test realizzate e le quantità di test predittivo . Il valore p stimato è solo la proporzione di queste simulazioni per le quali la quantità di prova è uguale o superiore al suo valore realizzato; cioè per qualeθ y rep θ L p ( y rep , θ | y ) T ( y , θ l ) T ( y rep l , θ l ) L T ( y rep l , θ l ) ≥ T ( y , θ l ) l = 1 , . . . , LLθyrappresentanteθLp ( yrappresentante, θ |y)T(y, θl)T( yrappresentante l, θl)L
T( yrappresentante l, θl) ≥ T( y, θl)
per .
l = 1 , . . . , L
Contrariamente all'approccio classico, il controllo del modello bayesiano non richiede metodi speciali per gestire i "parametri fastidiosi". Usando le simulazioni posteriori, calcoliamo implicitamente la media di tutti i parametri nel modello.
Un'ulteriore fonte, Andrew Gelman ha anche un bellissimo documento sui PPP qui:
http://www.stat.columbia.edu/~gelman/research/unpublished/ppc_understand2.pdf