Ho cercato di capire l'idea dei priori coniugati nelle statistiche bayesiane per un po ', ma semplicemente non capisco. Qualcuno può spiegare l'idea nei termini più semplici possibili, forse usando il "priore gaussiano" come esempio?
Ho cercato di capire l'idea dei priori coniugati nelle statistiche bayesiane per un po ', ma semplicemente non capisco. Qualcuno può spiegare l'idea nei termini più semplici possibili, forse usando il "priore gaussiano" come esempio?
Risposte:
Un precedente per un parametro avrà quasi sempre una forma funzionale specifica (scritta in termini di densità, in generale). Diciamo che ci limitiamo a una particolare famiglia di distribuzioni, nel qual caso la scelta del nostro precedente si riduce alla scelta dei parametri di quella famiglia.
Ad esempio, considera un modello normale . Per semplicità, prendiamo anche come noto. Questa parte del modello - il modello per i dati - determina la funzione di probabilità.
Per completare il nostro modello bayesiano, qui abbiamo bisogno di un precedente per .
Come accennato in precedenza, comunemente potremmo specificare una famiglia distributiva per il nostro precedente per e quindi dobbiamo solo scegliere i parametri di quella distribuzione (ad esempio, spesso le informazioni precedenti possono essere abbastanza vaghe, come approssimativamente dove vogliamo che la probabilità si concentri - piuttosto che di una forma funzionale molto specifica, e potremmo avere abbastanza libertà per modellare ciò che vogliamo scegliendo i parametri - diciamo per abbinare una media e una varianza precedenti).
Se si scopre che il posteriore per appartiene alla stessa famiglia del precedente, si dice che il precedente è "coniugato".
(Ciò che lo rende essere coniugato è il modo in cui si combina con la probabilità)
Quindi, in questo caso, prendiamo un precedente gaussiano per (diciamo μ ∼ N ( θ , τ 2 ) ). Se lo facciamo, vediamo che anche il posteriore per μ è gaussiano. Di conseguenza, il priore gaussiano era un priore coniugato per il nostro modello sopra.
Questo è tutto ciò che c'è davvero - se il posteriore appartiene alla stessa famiglia del precedente, è un coniugato precedente.
In casi semplici è possibile identificare un coniugato prima dell'ispezione della probabilità. Ad esempio, considera una probabilità binomiale; lasciando cadere le costanti, sembra una densità beta in ; e a causa del modo in cui i poteri di p e ( 1 - p ) si combinano, si moltiplicherà per una beta prima di dare anche un prodotto di poteri di p e ( 1 - p ) ... così possiamo vedere immediatamente dalla probabilità che la beta sarà un coniugato prima di p nella probabilità binomiale.
Nel caso gaussiano è più facile vedere che ciò accadrà considerando le densità dei tronchi e la probabilità dei tronchi; la probabilità logaritmica sarà quadratica in e la somma di due quadratiche è quadratica, quindi una logaritmo quadratica precedente + logaritmica quadratica dà un quadratico posteriore (ciascuno dei coefficienti del termine di ordine più alto sarà ovviamente negativo).
Se il tuo modello appartiene a una famiglia esponenziale , ovvero se la densità della distribuzione è della forma
La scelta della misura dominante è determinante per la famiglia dei priori. Se ad esempio si affronta una probabilità media normale su come nella risposta di Glen_b , la scelta della misura di Lebesgue come misura dominante porta alla coniugazione dei priori normali. Se invece si sceglie come misura dominante, i priori coniugati rientrano nella famiglia di distribuzioni con densità
Al di fuori di questa impostazione familiare esponenziale, non esiste una famiglia non banale di distribuzioni con un supporto fisso che consenta priori coniugati. Questa è una conseguenza del lemma di Darmois-Pitman-Koopman .
Mi piace usare la nozione di "kernel" di una distribuzione. Qui è dove si lascia solo nelle parti che dipendono dal parametro. Alcuni semplici esempi.
K kernel normale
Beta kernel
Quando osserviamo la funzione di verosimiglianza, possiamo fare la stessa cosa ed esprimerla in "forma del kernel". Ad esempio con i dati iid
where and and
This likelihood function has the same kernel as the normal distribution for , so a conjugate prior for this likelihood is also the normal distribution.
In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.
For a given distribution family of the likelihood (e.g. Bernoulli),
if the prior is of the same distribution family as the posterior (e.g. Beta),
then and are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.
Note: