Consentire ai dati di dettare i priori e quindi eseguire il modello usando questi priori? (ad es. priori basati sui dati dallo stesso set di dati)


9

Comprendo che non dovremmo consentire allo stesso set di dati che stiamo analizzando di guidare / definire l'aspetto delle distribuzioni precedenti in un'analisi bayesiana. In particolare, non è appropriato definire distribuzioni precedenti per un'analisi bayesiana basata su statistiche riassuntive dello stesso set di dati su cui si useranno i priori per adattarsi a un modello.

Qualcuno è a conoscenza di risorse che in particolare lo considerano inappropriato? Ho bisogno di alcune citazioni per questo problema.


Risposte:


11

Sì, questo è inappropriato perché utilizza gli stessi dati due volte, portando a risultati falsamente sicuri. Questo è noto come "doppia immersione".

Per riferimento, vorrei iniziare con Carlin e Louis (2000). Sebbene la "doppia immersione" sia stata una delle principali critiche di Empirical Bayes, Ch. 3, in particolare la sezione 3.5, di questo libro descrive i modi per stimare adeguati intervalli di confidenza usando l'approccio EB.

Berger J (2006). \ Il caso dell'analisi bayesiana obiettiva. "Analisi bayesiana, 1 (3), 385 {402

Bradley P. Carlin, Thomas A. Louis 2000. Metodi Bayes ed Empirical Bayes per l'analisi dei dati.

Darniede, WF 2011. Metodi bayesiani per i Priori dipendenti dai dati. Tesi MS, Ohio State Univ.

Gelman, A., Carlin, JB, Stern, HS e Rubin, DB (2003), Bayesian Data Analyssis, Second Edition (Chapman & Hall / CRC Texts in Statistical Science), Chapman and Hall / CRC, 2nd ed.


@sarah Per favore registra il tuo account in modo da poter reclamare la tua domanda. Visita questo URL: stats.stackexchange.com/users/login

1

Può avere senso usare i dati per costruire il precedente però.

Per un esempio nella modellazione delle miscele, vedi Richardson & Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667

Usano la media e la gamma dei punti dati come iperparametri per il precedente e ha perfettamente senso.

A mio avviso, il problema di utilizzare i dati due volte si verifica quando un precedente informativo deriva dai dati.

Fintanto che controlli che la tua distribuzione precedente sia "piatta" in cui la distribuzione posteriore è al massimo, allora sai che la tua distribuzione precedente non ha un forte impatto sui risultati.


L'uso dei dati per costruire il priore non può avvenire all'interno del paradigma bayesiano. Quindi non ha senso dal punto di vista bayesiano e non si applica la normale convalida delle procedure bayesiane. L'inferenza risultante può essere perfettamente valida, ma bisogna dimostrarlo dai primi principi. (Richardson e Green usano quella che viene chiamata Bayes empirica. Che non è una procedura bayesiana.)
Xi'an

Sebbene non abbia senso all'interno del paradigma bayesiano, a volte la linea di divisione tra ciò che è dato e ciò che è precedente è difficile da tracciare. Vedi la mia risposta a stats.stackexchange.com/questions/112451/…
kjetil b halvorsen
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.