Perché ci sono raccomandazioni contro l'uso di Jeffreys o di priori basati sull'entropia per i campionatori MCMC?

Sulla loro pagina wiki , gli sviluppatori di Stan dichiarano:

Alcuni principi che non ci piacciono: invarianza, Jeffreys, entropia

Vedo invece molte normali raccomandazioni di distribuzione. Finora ho usato metodi bayesiani che non si basavano sul campionamento ed ero abbastanza felice di aver capito perché stata una buona scelta per le probabilità binomiali. $\theta \sim \text{Beta}\left(\alpha=\frac{1}{2},\beta=\frac{1}{2}\right)$

— wirrbel
fonte

Commento generico: la documentazione del software non sempre ricapitola gli argomenti statistici relativi a ciò che il software fa e non fa. Questo è vero per la maggior parte dei pacchetti R che ho visto e non sono sorpreso di sentire lo stesso di Stan. Andrew Gelman è, evidentemente, un autore prolifico.

— Nick Cox,

Ulteriore commento generico: non trovo questo tipo di domanda molto soddisfacente, in parte perché riguarda individui particolari. Se gli autori dal vivo non spiegano da qualche parte e non sono ovviamente attivi qui, quindi inviare loro un'e-mail per chiedere. È più soddisfacente chiedere in astrazione i meriti relativi dei diversi approcci. A volte è giusto dire che puoi sempre usare software diversi se trovi qualcosa che manca, incluso scrivere il tuo. Non divulgazione: mai usato Stan.

— Nick Cox,

@NickCox Non penso che questa domanda avrebbe beneficiato di un anonimato, perché (1) il contesto di un software di samling è importante (2) la mia impressione è che un rifiuto dei priori di Jeffreys sia abbastanza insolito che vale la pena sottolineare che una fonte rinomata sostiene tale affermazione. (3) Non credo sia scontato citare qualcuno in una domanda.

— Wirrbel,

Andy ha scritto "Alcuni principi che non ci piacciono: invarianza, Jeffreys, entropia" ma per capire perché dovresti guardare nel suo libro

— Ben Goodrich,

Inoltre, questo documento contiene il pensiero più recente sui priori tra tre sviluppatori Stan.

— Ben Goodrich,

Risposte:

Questo è ovviamente un insieme diversificato di persone con una serie di opinioni che si riuniscono e scrivono un wiki. Riassumo che conosco / capisco con alcuni commenti:

La scelta del tuo precedente in base alla convenienza computazionale è una motivazione insufficiente. Ad esempio, usare una Beta (1/2, 1/2) solo perché consente l'aggiornamento del coniugato non è una buona idea. Naturalmente, una volta concluso che ha buone proprietà per il tipo di problema su cui lavori, va bene e potresti anche fare una scelta che semplifica l'implementazione. Ci sono molti esempi, in cui le convenienti scelte predefinite risultano problematiche (vedi Gamna (0,001, 0,001) prima che abiliti il campionamento di Gibbs).
Con Stan - diversamente da WinBUGS o JAGS - non vi è alcun vantaggio particolare per i priori coniugati (condizionatamente). Quindi potresti semplicemente ignorare un po 'l'aspetto computazionale. Non del tutto però, perché con priori dalla coda molto pesante (o priori impropri) e dati che non identificano bene i parametri, si verificano problemi (non proprio un problema specifico di Stan, ma Stan è abbastanza bravo a identificare questi problemi e avvisare l'utente invece di campionare felicemente via).
I priori di Jeffreys e altri "a bassa informazione" a volte possono essere impropri o essere un po 'troppo difficili da capire in dimensioni elevate (non importa di ricavarli) e con dati scarsi. Può darsi che questi abbiano causato problemi troppo spesso perché gli autori non si sentissero mai a proprio agio con loro. Una volta che lavori in qualcosa, impari di più e ti senti a tuo agio, da qui l'inversione di opinione occasionale.
Nell'impostazione dei dati sparsi il precedente conta davvero e se è possibile specificare che i valori totalmente non plausibili per un parametro sono non plausibili, questo aiuta molto. Ciò motiva l'idea di priori debolmente informativi - non realmente priori pienamente informativi, ma quelli con il maggior supporto per valori plausibili.
In effetti, potresti chiederti perché uno si preoccupa di priori non informativi, se abbiamo molti dati che identificano i parametri davvero bene (si potrebbe semplicemente usare la massima probabilità). Naturalmente, ci sono molte ragioni (evitare patologie, ottenere la "forma reale" dei posteriori, ecc.), Ma in situazioni di "molti dati" sembra invece non esserci un vero argomento contro i priori debolmente informativi.
Forse un po 'stranamente un N (0, 1) è un precedente sorprendentemente decente per coefficiente nella regressione logistica, Poisson o Cox per molte applicazioni. Ad esempio, questa è approssimativamente la distribuzione degli effetti del trattamento osservati in molti studi clinici.

— Björn
fonte

Grazie per la risposta dettagliata Immagino che il mio stupore non riguardi tanto la coniugazione (perché se lo capisco correttamente, i priori di Jeffreys non hanno bisogno di essere coniugati, devono solo essere invarianti sotto la riparametrizzazione). Quindi comprenderei totalmente i consigli contro i coniugati priori.

— Wirrbel,

Penso che la preoccupazione con Jeffreys prima sia principalmente che si tratti di un precedente ad alta dimensione che potrebbe non essere un precedente adeguato e potrebbe avere una certa influenza sulla tua deduzione che non capisci completamente. Penso che sia principalmente una preoccupazione per i dati sparsi, anche se forse qualcuno può indicare un esempio con dati non sparsi, in cui si verificano alcuni problemi (non ne sono a conoscenza). Oltre a Jeffreys precedenti e varie altre opzioni "non informative", c'è l'incovenienza di doverle ricavare.

— Björn,

Non forniscono alcuna giustificazione scientifica / matematica per farlo. La maggior parte degli sviluppatori non lavora su questo tipo di priori e preferisce usare priori più pragmatici / euristici, come i priori normali con ampie variazioni (che possono essere informativi in alcuni casi). Tuttavia, è un po 'strano che siano felici di usare PC priors, che sono basati su Entropy (divergenza di KL), dopo aver iniziato a lavorare su questo argomento.

Un fenomeno simile si è verificato con WinBUGS , quando gli sviluppatori hanno raccomandato come un precedente non informativo per i parametri di precisione poiché ricorda la forma del precedente Jeffreys. Questo precedente è diventato il precedente predefinito per i parametri di precisione. Più tardi, è stato dimostrato ( da Gelman! ) Che possono essere altamente istruttivi. $Gamma(0.001,0.001)$

— precedente
fonte

potresti fornire un collegamento ipertestuale informativo / fonte al reclamo Gelman.

— Jim,

@Jim Certo, è il documento: projecteuclid.org/euclid.ba/1340371048

— Prima del