Modifiche: ho aggiunto un semplice esempio: inferenza della media di . Ho anche chiarito leggermente perché gli intervalli credibili che non corrispondono agli intervalli di confidenza sono cattivi.
Io, un bayesiano abbastanza devoto, sono nel mezzo di una sorta di crisi di fede.
Il mio problema è il seguente. Supponiamo che io voglia analizzare alcuni dati IID . Quello che vorrei fare è:
in primo luogo, proporre un modello condizionale:
Quindi, scegli un precedente su :
Infine, applica la regola di Bayes, calcola il posteriore: (o qualche approssimazione ad esso se dovesse essere incomputabile) e rispondi a tutte le domande che ho su
Questo è un approccio sensato: se il vero modello dei dati è davvero "dentro" al mio condizionale (corrisponde ad un valore ), allora posso invocare la teoria della decisione statistica per dire che il mio metodo è ammissibile (vedi Robert's "La scelta bayesiana" per i dettagli; "Tutte le statistiche" fornisce anche un chiaro resoconto nel capitolo pertinente).
Tuttavia, come tutti sanno, supporre che il mio modello sia corretto è abbastanza arrogante: perché la natura dovrebbe rientrare ordinatamente nella scatola dei modelli che ho considerato? È molto più realistico supporre che il modello reale dei dati differisca da per tutti i valori di . Questo di solito viene chiamato modello "non specificato".
Il mio problema è che, in questo caso più realistico non correttamente specificato, non ho buoni argomenti per essere bayesiano (ovvero: calcolare la distribuzione posteriore) rispetto al semplice calcolo dello stimatore della massima verosimiglianza (MLE):
Infatti, secondo Kleijn, vd Vaart (2012) , nel caso errato, la distribuzione posteriore:
converge come in una distribuzione dirac centrata su un
non ha la varianza corretta (a meno che due valori non coincidano) al fine di garantire che gli intervalli credibili degli intervalli posteriori corrispondano agli intervalli di confidenza per . (Si noti che, sebbene gli intervalli di confidenza siano ovviamente qualcosa di cui i bayesiani non si preoccupano eccessivamente, ciò significa qualitativamente che la distribuzione posteriore è intrinsecamente sbagliata, poiché implica che i suoi intervalli credibili non hanno una copertura corretta)
Pertanto, stiamo pagando un premio computazionale (l'inferenza bayesiana, in generale, è più costosa della MLE) senza proprietà aggiuntive
Quindi, infine, la mia domanda: ci sono argomenti, sia teorici che empirici, per usare l'inferenza bayesiana sulla più semplice alternativa MLE quando il modello è specificato male?
(Dato che so che le mie domande sono spesso poco chiare, per favore fatemi sapere se non capite qualcosa: proverò a riformularla)
Modifica: consideriamo un semplice esempio: inferire la media di sotto un modello gaussiano (con varianza nota per semplificare ulteriormente). Consideriamo un priore gaussiano: denotiamo la media precedente, la varianza inversa del priore. Sia la media empirica di . Infine, nota: .
La distribuzione posteriore è:
Nel caso correttamente specificato (quando davvero una distribuzione gaussiana), questo posteriore ha le seguenti belle proprietà
Se gli sono generati da un modello gerarchico in cui la loro media condivisa viene prelevata dalla distribuzione precedente, gli intervalli credibili posteriori hanno una copertura esatta. In base ai dati, la probabilità che sia in qualsiasi intervallo è uguale alla probabilità che il posteriore attribuisca a questo intervallo
Anche se il precedente non è corretto, gli intervalli credibili hanno una copertura corretta nel limite in cui svanisce l'influenza precedente sul posteriore
il posteriore ha inoltre buone proprietà frequentiste: qualsiasi stimatore bayesiano costruito dal posteriore è garantito per essere ammissibile, la media posteriore è uno stimatore efficiente (nel senso di Cramer-Rao) della media, gli intervalli credibili sono, asintoticamente, intervalli di confidenza.
Nel caso errato, la maggior parte di queste proprietà non sono garantite dalla teoria. Per correggere le idee, supponiamo che il vero modello per sia che sono invece distribuzioni per studenti. L'unica proprietà che possiamo garantire (Kleijn et al) è che la distribuzione posteriore si concentri sulla media reale di nel limite . In generale, tutte le proprietà di copertura svanirebbero. Peggio ancora, in generale, possiamo garantire che, in quel limite, le proprietà di copertura sono fondamentalmente sbagliate: la distribuzione posteriore attribuisce la probabilità errata a varie regioni dello spazio.