Distribuzioni precedenti debolmente informative per i parametri di scala


21

Ho usato le distribuzioni log normali come distribuzioni precedenti per i parametri di scala (per distribuzioni normali, t distribuzioni ecc.) Quando ho un'idea approssimativa di come dovrebbe essere la bilancia, ma voglio sbagliare sul lato del dire che non lo so molto al riguardo. Lo uso perché quell'uso ha un senso intuitivo per me, ma non ho visto altri usarlo. Ci sono pericoli nascosti in questo?


1
I normali hanno priori coniugati: en.wikipedia.org/wiki/Normal-gamma_distribution . Potresti trovare questi molto più facili da usare.
whuber

Interessante. Sto facendo cose numeriche, c'è un vantaggio in queste distribuzioni oltre alla congugalità?
John Salvatier,

5
Non proprio la mia area, ma questo 'potrebbe' essere rilevante? Gelman A. Distribuzioni precedenti per i parametri di varianza nei modelli gerarchici. Bayesian Analysis 2006; 1: 515-533. dx.doi.org/10.1214/06-BA117A
onestop il

Ho trovato questa distribuzione Scaled-Beta proposta da Pérez e Pericchi. 2

I priori coniugati per una particolare distribuzione come la normale sono solo priori che portano a quella distribuzione come distribuzione posteriore dato un insieme di dati. Se si utilizza un coniugato prima, non è necessario immischiarsi nel fare l'integrazione per calcolare il posteriore. Rende le cose convenienti, ma in questi giorni MCMC rende molto più facile usare una vasta gamma di possibili priori.
Michael R. Chernick,

Risposte:


20

Consiglierei di utilizzare una "distribuzione Beta del secondo tipo" ( abbreviazione Beta 2 ) per una distribuzione leggermente informativa e di utilizzare la distribuzione gamma inversa coniugata se si hanno forti convinzioni precedenti. Il motivo per cui dico questo è che il priore coniugato non è robusto nel senso che, se il priore e il conflitto di dati, il priore ha un'influenza illimitata sulla distribuzione posteriore. Tale comportamento è ciò che definirei "dogmatico" e non giustificato da lievi informazioni preliminari.

La proprietà che determina la robustezza è il comportamento della coda del priore e della probabilità. Un ottimo articolo che delinea i dettagli tecnici è qui . Ad esempio, una probabilità può essere scelta (diciamo una distribuzione t) in modo tale che come osservazione (cioè diventa arbitrariamente grande) viene scartata dall'analisi di un parametro di posizione (più o meno allo stesso modo in cui si farebbe fare intuitivamente con una tale osservazione). Il tasso di "eliminazione" dipende da quanto sono pesanti le code della distribuzione.yio

Alcune diapositive che mostrano un'applicazione nel contesto della modellazione gerarchica sono disponibili qui (mostra la forma matematica della distribuzione Beta 2 ), con un documento qui .

Se non ci si trova nel contesto della modellazione gerarchica, suggerirei di confrontare il posteriore (o qualunque risultato si stia creando) ma utilizzare Jeffreys in precedenza per un parametro di scala, che è dato da . Questo può essere creato come limite della densità Beta 2 poiché entrambi i suoi parametri convergono a zero. Per un'approssimazione potresti usare piccoli valori. Ma proverei a elaborare la soluzione analiticamente se possibile (e se non una soluzione analitica completa, ottenere la soluzione analitica il più avanzato possibile), perché non ti risparmierai solo un po 'di tempo di calcolo, ma sei è anche probabile che capisca meglio cosa sta succedendo nel tuo modello.p(σ)α1σ

Un'ulteriore alternativa è specificare le tue informazioni precedenti sotto forma di vincoli (media uguale a , varianza uguale a , IQR uguale a , ecc. Con i valori di specificati da te stesso), quindi utilizzare il massima distribuzione entropica (cerca qualsiasi lavoro di Edwin Jaynes o Larry Bretthorst per una buona spiegazione di cosa sia Entropia massima e cosa non lo sia) rispetto alla "misura invariante" di Jeffreys . V I Q R M , V , I Q R m ( σ ) = 1MVioQRM,V,ioQRm(σ)=1σ

MaxEnt è la versione "Rolls Royce", mentre la Beta 2 è più una versione "berlina". La ragione di ciò è che la distribuzione MaxEnt "assume il minimo" soggetto ai vincoli che ci hai messo (ad esempio, nessun vincolo significa che hai appena ricevuto i Jeffreys prima), mentre la distribuzione Beta 2 può contenere alcune caratteristiche "nascoste" che può essere o meno desiderabile nel tuo caso specifico (ad esempio, se le informazioni precedenti sono più affidabili dei dati, allora Beta 2 è cattiva).

L'altra bella proprietà della distribuzione MaxEnt è che se non ci sono vincoli non specificate che operano nel meccanismo di generazione dei dati allora la distribuzione MaxEnt è schiacciante la più probabile di distribuzione che si vedrà (stiamo parlando odds modo nel corso di miliardi e triliardi a uno). Pertanto, se la distribuzione che vedi non è quella MaxEnt, allora ci sono probabilmente ulteriori vincoli che non hai specificato operando sul processo vero e che i valori osservati possono fornire un indizio su quale potrebbe essere quel vincolo.


@probabilityislogic Bella risposta. Sai dove posso trovare i documenti che menzioni nel terzo paragrafo? I collegamenti non funzionano.

1
uno che funziona per il giornale è qui . Era su un sito web della conferenza "Obiettivi Bayes 09" (gli incontri di Valencia). Non credo che le diapositive saranno più disponibili, dato che il sito web della conferenza è stato rimosso ... :( peccato, è stato un buon set di diapositive. Quel cavallo di cavallo prima sembra interessante nel link che hai fornito.
Probislogic,

Betun'2

@Procrastinator Ho ragione a dare per scontato che desideri solo priori propri? Non l'hai detto tu, ma se permetti a priori impropri, i già citati priori di Jeffreys funzionerebbero e potrei citare la teoria della probabilità di Jeffreys, i libri di Dennis Lindley o l'enciclopedia delle statistiche. Il modo in cui una richiesta può essere verificata utilizzando Google per trovare la risposta e se non può essere trovata probabilmente non c'è nulla nella letteratura al di fuori di quelli che hai escluso.
Michael R. Chernick,

@MichaelChernick Sì, hai ragione, sono interessato solo ai priori appropriati. La ragione di ciò è che per i priori propri (1) l'esistenza del posteriore non è restrittiva per alcuni modelli e (2) volevo verificare se non mi mancava un'altra proposta interessante. Concordo con te sul fatto che sembra che i priori di Gelman, Pericchi e Gamma siano i più popolari in letteratura, ma ho anche notato che c'è una tendenza a proporre priori dalla coda pesante per produrre inferenze "solide".

13

Il seguente articolo di Daniels confronta una varietà di priori di ritiro per la varianza. Questi sono priori propri, ma non sono sicuro di quanti possano essere definiti non informativi. Ma fornisce anche un elenco di priori non informativi (non tutti propri). Di seguito è riportato il riferimento.

MJ Daniels (1999), un priore per la varianza dei modelli gerarchici , il canadese J. Stat. , vol. 27, n. 3, pagg. 567-578.

Priori

  1. K
  2. τ-2
  3. τ-1
  4. 1/(σ2+τ2)
  5. σ/(2(σ2+τ2)3/2)
  6. σ2/(σ2+τ2)
  7. σ/(2τ(σ+τ)2)

Un altro documento più recente in una vena correlata è il seguente.

A. Gelman (2006), Precedenti distribuzioni per parametri di varianza in modelli gerarchici , Bayesian Analysis , vol. 1, n. 3, pagg. 515-533.


2
(+1) Questa è una buona scoperta. Ho aggiunto un collegamento stabile al documento di Daniels e un altro riferimento che sembra completarlo.
cardinale

4

(La domanda è viziata, ma il problema non lo è)

Personalmente, penso che il tuo intuito abbia un senso. Vale a dire, se non hai bisogno del riordino matematico della coniugazione, qualunque sia la distribuzione che useresti per un parametro location, dovresti usare lo stesso per il log di un parametro scale. Quindi, quello che stai dicendo è: usa l'equivalente di un normale precedente.

Utilizzeresti effettivamente un precedente normale per un parametro location? Molte persone direbbero che, a meno che non si renda enorme la varianza, è probabilmente un po '"troppo dogmatico", per ragioni spiegate nelle altre risposte qui (influenza illimitata). Un'eccezione sarebbe se stai facendo bayes empirici; cioè, usando i tuoi dati per stimare i parametri del tuo precedente.

Se vuoi essere "debolmente informativo", probabilmente sceglieresti una distribuzione con code più grasse; i candidati ovvi sono le distribuzioni. L'ultimo consiglio di Gelman sembra essere quello di usare con df di 3-7. (Si noti che il collegamento supporta anche il mio suggerimento di voler fare la stessa cosa per il registro di scala che si farebbe per la posizione) Quindi, anziché un lognormale, è possibile utilizzare un registro-studente-t. Per fare questo in Stan, potresti fare qualcosa del tipo:

real log_sigma_y; //declare at the top of your model block
//...some more code for your model
log_sigma_y <- log(sigma_y); increment_log_prob(-log_sigma_y);
log_sigma_y ~ student_t(3,1,3); //This is a 'weakly informative prior'.

Tuttavia, penso che se il codice sopra è troppo complesso per te, probabilmente potresti cavartela con un precedente lognormale, con due avvertenze. Innanzitutto, rendi la varianza di quella precedente un paio di volte più ampia della tua approssimativa ipotesi di "non sei sicuro"; vuoi un precedente debolmente informativo, non fortemente informativo. E in secondo luogo, una volta adattato al modello, controllare la mediana posteriore del parametro e assicurarsi che il log di esso non sia troppo lontano dal centro del lognormale. "Non troppo lontano" probabilmente significa: meno di due deviazioni standard, e preferibilmente non molto più di una SD.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.