Consiglierei di utilizzare una "distribuzione Beta del secondo tipo" ( abbreviazione Beta 2 ) per una distribuzione leggermente informativa e di utilizzare la distribuzione gamma inversa coniugata se si hanno forti convinzioni precedenti. Il motivo per cui dico questo è che il priore coniugato non è robusto nel senso che, se il priore e il conflitto di dati, il priore ha un'influenza illimitata sulla distribuzione posteriore. Tale comportamento è ciò che definirei "dogmatico" e non giustificato da lievi informazioni preliminari.
La proprietà che determina la robustezza è il comportamento della coda del priore e della probabilità. Un ottimo articolo che delinea i dettagli tecnici è qui . Ad esempio, una probabilità può essere scelta (diciamo una distribuzione t) in modo tale che come osservazione (cioè diventa arbitrariamente grande) viene scartata dall'analisi di un parametro di posizione (più o meno allo stesso modo in cui si farebbe fare intuitivamente con una tale osservazione). Il tasso di "eliminazione" dipende da quanto sono pesanti le code della distribuzione.yio→ ∞
Alcune diapositive che mostrano un'applicazione nel contesto della modellazione gerarchica sono disponibili qui (mostra la forma matematica della distribuzione Beta 2 ), con un documento qui .
Se non ci si trova nel contesto della modellazione gerarchica, suggerirei di confrontare il posteriore (o qualunque risultato si stia creando) ma utilizzare Jeffreys in precedenza per un parametro di scala, che è dato da . Questo può essere creato come limite della densità Beta 2 poiché entrambi i suoi parametri convergono a zero. Per un'approssimazione potresti usare piccoli valori. Ma proverei a elaborare la soluzione analiticamente se possibile (e se non una soluzione analitica completa, ottenere la soluzione analitica il più avanzato possibile), perché non ti risparmierai solo un po 'di tempo di calcolo, ma sei è anche probabile che capisca meglio cosa sta succedendo nel tuo modello.p ( σ) ∝ 1σ
Un'ulteriore alternativa è specificare le tue informazioni precedenti sotto forma di vincoli (media uguale a , varianza uguale a , IQR uguale a , ecc. Con i valori di specificati da te stesso), quindi utilizzare il massima distribuzione entropica (cerca qualsiasi lavoro di Edwin Jaynes o Larry Bretthorst per una buona spiegazione di cosa sia Entropia massima e cosa non lo sia) rispetto alla "misura invariante" di Jeffreys . V I Q R M , V , I Q R m ( σ ) = 1MVioQ RM, V, IQ Rm ( σ) = 1σ
MaxEnt è la versione "Rolls Royce", mentre la Beta 2 è più una versione "berlina". La ragione di ciò è che la distribuzione MaxEnt "assume il minimo" soggetto ai vincoli che ci hai messo (ad esempio, nessun vincolo significa che hai appena ricevuto i Jeffreys prima), mentre la distribuzione Beta 2 può contenere alcune caratteristiche "nascoste" che può essere o meno desiderabile nel tuo caso specifico (ad esempio, se le informazioni precedenti sono più affidabili dei dati, allora Beta 2 è cattiva).
L'altra bella proprietà della distribuzione MaxEnt è che se non ci sono vincoli non specificate che operano nel meccanismo di generazione dei dati allora la distribuzione MaxEnt è schiacciante la più probabile di distribuzione che si vedrà (stiamo parlando odds modo nel corso di miliardi e triliardi a uno). Pertanto, se la distribuzione che vedi non è quella MaxEnt, allora ci sono probabilmente ulteriori vincoli che non hai specificato operando sul processo vero e che i valori osservati possono fornire un indizio su quale potrebbe essere quel vincolo.