Storia della teoria precedente non informativa


24

Sto scrivendo un breve saggio teorico per un corso di Statistica Bayesiana (in un Master in Economia) su priori non informativi e sto cercando di capire quali sono i passi nello sviluppo di questa teoria.

Ormai, la mia linea temporale è composta da tre fasi principali: principio di indifferenza di Laplace (1812), priori non invarianti (Jeffreys (1946)), riferimento di Bernardo precedente (1979).

Dalla mia recensione di letteratura, ho capito che il principio di indifferenza (Laplace) è stato il primo strumento utilizzato per rappresentare la mancanza di informazioni precedenti, ma il requisito mancante di invarianza ha portato al suo abbandono fino agli anni '40, quando Jeffreys ha introdotto il suo metodo, che ha il proprietà desiderata dell'invarianza. Il sorgere di paradossi dell'emarginazione dovuti all'uso incauto di un priore improprio negli anni '70 ha spinto Bernardo a elaborare la sua teoria di riferimento di riferimento per affrontare questo problema.

Leggendo la letteratura, ogni autore cita contributi diversi: la massima entropia di Jaynes, Box e la probabilità tradotta dai dati di Tiao, Zellner, ...

Secondo te, quali sono i passaggi cruciali che mi mancano?

EDIT : aggiungo i miei riferimenti (principali), se qualcuno ha bisogno di:

1) La selezione del precedente mediante regole formali, Kass, Wasserman

2) Un catalogo di priori non informativi, Yang, Berger

3) Interpretazione e problemi dei preti bayesiani non informativi con costruzione e applicazioni


10
una volta terminato quel saggio teorico, saresti in qualche modo da collegarlo qui?
Nikolas Rieble,

2
Sarebbe bello se potessi fornire una risposta alla tua domanda riassumendo la tua tesi.
Tim

3
Ho già collegato questo articolo prima, ma l'epica storia della massima verosimiglianza , copre il "divario" storico tra Laplace e Jeffrey: dove il lavoro di Gauss, Hotelling, Fisher, Bernoulli e altri ha indicato una stima verso la massima verosimiglianza durante quel periodo.
AdamO,

2
@alessandro descrive il modo in cui l'approccio Laplaciano fu mantenuto per quasi un secolo dopo che Gauss sviluppò e usò stampe uniformi (concependole come non informative). Pearson e Kristine Smith hanno disconosciuto ML perché l'inferenza risultante non ha affrontato le probabilità come vorrebbe un bayesiano.
AdamO,

7
Minuto (pedante, se vuoi) ma forse utile punto: Jeffreys = (Professor Sir) Harold Jeffreys, matematico britannico applicato, geofisico e molto altro; mi ha spiegato in una lettera 40 anni fa che preferiva i possessivi di Jeffreys perché Jeffreys era suscettibile di mutazione a Jeffrey piuttosto errato. Sopra abbiamo un esempio! (Non aiuta che anche Richard C. Jeffrey, filosofo americano, una persona completamente diversa, abbia scritto con probabilità.)
Nick Cox,

Risposte:


13

Quello che sembra mancare è la storia antica. Puoi controllare l'articolo di Fienberg (2006) Quando l'inferenza bayesiana è diventata "bayesiana"? . Innanzitutto, nota che Thomas Bayes è stato il primo a suggerire di usare un'uniforme prima:

θ

Pierre Simon Laplace è stato il prossimo a discuterne:

θ

f(θx1,x2,,xn)f(x1,x2,,xnθ)

θ

Inoltre, Carl Friedrich Gauss si riferiva anche all'uso di un precedente non informativo, come osservato da David ed Edwards (2001) nel loro libro Annotated Readings in the History of Statistics :

h

f(h|x)f(x|h)

h[0,)

e come nota Fienberg (2006), la "probabilità inversa" (e ciò che segue, usando priori uniformi) era popolare all'inizio del XIX secolo

tμμh=σ1

La prima storia dell'approccio bayesiano è anche rivista da Stigler (1986) nel suo libro La storia della statistica: la misurazione dell'incertezza prima del 1900 .

Nella tua breve recensione non parli nemmeno di Ronald Aylmer Fisher (citato di nuovo dopo Fienberg, 2006):

Fisher si allontanò dai metodi inversi e verso il proprio approccio all'inferenza chiamò la "probabilità", un concetto che sosteneva fosse distinto dalla probabilità. Ma la progressione di Fisher in questo senso è stata lenta. Stigler (164) ha sottolineato che, in un manoscritto inedito risalente al 1916, Fisher non distingueva tra verosimiglianza e probabilità inversa con un precedente piatto, anche se in seguito fece la distinzione che affermava di averlo capito in quel momento.

Jaynes (1986) ha pubblicato il suo breve documento di revisione Bayesian Methods: General Background. Un tutorial introduttivo che potresti controllare, ma non si concentra su priori non informativi. Inoltre, come notato da AdamO , dovresti assolutamente leggere The Epic Story of Maximum Likelihood di Stigler (2007).

Vale anche la pena ricordare che non esiste un "priore non informativo" , quindi molti autori preferiscono parlare di "priori vaghi" o "priori informativi settimanali" .

Una revisione teorica è fornita da Kass e Wasserman (1996) in La selezione di precedenti distribuzioni secondo regole formali , che approfondiscono la scelta dei priori, con una discussione estesa sull'uso dei priori non informativi.


Era il tipo di risposta che cercavo. Grazie!
PhDing

Penso che Fienberg abbia prolungato troppo l'orgoglio dei bayesiani. Personalmente non mi piace usare la "probabilità inversa" per definire qualsiasi cosa perché non sembra coerente con l'immagine della geometria integrale proposta da Adler e Taylor. Ogni buona procedura statistica dovrebbe avere la sua corrispondenza matematica, la probabilità inversa è così distorta che difficilmente puoi analizzarla quando il problema è leggermente più sensibile dalla mia esperienza.
Henry.L

@ Henry.L ... tuttavia, fa parte della storia del pensiero statistico :) Notare anche che non è solo Fienberg a fornire tali esempi. L'intera ribellione anti-inversa e anti-bayesiana è iniziata perché è diventata abbastanza popolare.
Tim

@Tim Sì, immagino sia quello che Thomas Kuhn ha chiamato "cambio di schema" e noto anche come "... alla fine gli avversari muoiono e una nuova generazione cresce" :)).
Henry.L

5

Alcuni commenti su difetti di priori non informativi (priori non informativi) sono probabilmente una buona idea poiché l'indagine su tali difetti ha aiutato lo sviluppo del concetto di precedente non informativo nella storia.

Potresti voler aggiungere alcuni commenti sugli svantaggi / difetti dell'adozione di priori non informativi. Tra le molte critiche ne segnalo due.

(1) Generalmente l'adozione di priori non informativi ha problemi di coerenza, specialmente quando la distribuzione del modello ha un comportamento multimodale.

Questo problema non è unico per i priori non informativi, ma è condiviso da molte altre procedure bayesiane come sottolineato nel documento seguente insieme alle sue discussioni.

Diaconis, Persi e David Freedman. "Sulla coerenza delle stime di Bayes." The Annals of Statistics (1986): 1-26.

Oggi il precedente non informativo non è più un obiettivo di ricerca. Sembra che ci sia più interesse per le scelte più flessibili di precedenti in impostazioni non parametriche. Esempi sono il processo gaussiano precedente nella procedura non parametrica di Bayes o un modello flessibile come una miscela di priori di Dirichlet, come in

Antoniak, Charles E. "Miscele di processi di Dirichlet con applicazioni a problemi bayesiani non parametrici." Gli annali delle statistiche (1974): 1152-1174.

Ma ancora una volta un simile priore ha i suoi problemi di coerenza.

(2) La maggior parte dei cosiddetti "priori non informativi" non sono ben definiti.

Questo è probabilmente il problema più evidente associato ai priori non informativi durante il loro sviluppo.

Un esempio è che la definizione limite di precedente non informativo come limite di una sequenza di priori propri porterà a un paradosso di emarginazione. Come hai detto, il riferimento di Bernardo ha anche il problema che Berger non ha mai dimostrato che la sua definizione formale sia indipendente dalla sua costruzione / partizione. Vedi la discussione in

Berger, James O., José M. Bernardo e Dongchu Sun. "La definizione formale di priori di riferimento". The Annals of Statistics (2009): 905-938.

Una delle migliori definizioni del priore di Jeffreys ben definita è che è stato scelto per essere un priore in modo tale da essere invariante in determinate traduzioni parallele sulla varietà riemanniana dotata di metrica di informazioni Fisher, ma anche ciò non risolve il primo problema.

Inoltre potresti voler leggere la mia spiegazione sul paradosso dell'emarginazione .


Questo è un post eccellente e nessuno di noi ci ha pensato. Ottimo lavoro.
Dave Harris,

Ho apportato diverse piccole modifiche all'espressione senza cercare di cambiare significato o implicazioni. Verifica che il tuo significato sia invariante durante la modifica.
Nick Cox,

4

Avrei pubblicato nei commenti, ma suppongo di non avere ancora la reputazione. L'unica cosa che manca, non nei commenti già segnati, è un caso speciale di priori non informativi le cui origini ho cercato di dare la caccia e non ho trovato. Potrebbe precedere la carta di Jeffreys.

Per la distribuzione normale, ho visto la distribuzione di Cauchy utilizzata come un precedente non informativo per i dati con una probabilità normale. Il motivo è che la precisione della distribuzione di Cauchy è zero, dove la precisione è divisa per la varianza. Crea un insieme piuttosto peculiare di concetti contraddittori.

1πΓΓ2+(xμ)2.

A seconda di come si definisce l'integrale, non vi è alcuna varianza definita o va all'infinito attorno alla mediana, il che implica che la precisione va a zero. Nell'aggiornamento del coniugato, che non si applica qui, si aggiungono le precisazioni ponderate. Penso che sia per questo che si è formata l'idea di un vero prior con una densità perfettamente imprecisa. È anche equivalente alla t di Student con un grado di libertà, che potrebbe anche essere la fonte.

2Γ

I due primi riferimenti alla distribuzione di Cauchy sono come funzioni di verosimiglianza. Il primo in una lettera di Poisson a Laplace come eccezione al Teorema del limite centrale. Il secondo era nel 1851 articoli di giornale in una battaglia tra Bienayme 'e Cauchy sulla validità dei minimi quadrati ordinari.

Ho trovato riferimenti al suo uso come non informativo prima degli anni '80, ma non riesco a trovare un primo articolo o libro. Inoltre, non ho trovato la prova che sia non informativo. Ho trovato una citazione del libro di Jeffreys del 1961 sulla teoria della probabilità, ma non ho mai richiesto il libro tramite un prestito interbibliotecario.

Potrebbe essere semplicemente debolmente informativo. La regione a più alta densità del 99,99% è larga 1272 gamme semi-interquartili.

Spero possa essere d'aiuto. È uno strano caso speciale, ma lo vedi emergere in numerosi documenti di regressione. Soddisfa i requisiti per un'azione di Bayes essendo un precedente adeguato, influenzando minimamente la posizione e la scala.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.