Che cos'è un "precedente non informativo"? Possiamo mai averne uno senza davvero informazioni?


73

Ispirato da un commento di questa domanda :

Cosa consideriamo "non informativo" in un precedente - e quali informazioni sono ancora contenute in un precedente apparentemente non informativo?

In genere vedo il precedente in un'analisi in cui si tratta di un'analisi di tipo frequentista che cerca di prendere in prestito alcune parti carine dall'analisi bayesiana (sia un'interpretazione più semplice fino a "è la cosa più calda da fare"), il precedente specificato è un distribuzione uniforme attraverso i limiti della misura dell'effetto, centrata su 0. Ma anche quello asserisce una forma al precedente - sembra essere piatto.

C'è un migliore non informativo prima dell'uso?


2
Forse ti godrai uno sguardo al cosiddetto Principio della massima entropia . Non ho voglia di ampliarlo in una risposta completa: l'articolo di Wikipedia sembra di buona qualità. Sono abbastanza fiducioso che alcuni partecipanti si espanderanno su di esso molto meglio di quanto vorrei.
Elvis

Risposte:


93

[Avvertenza: come membro portatore di carte della Sezione Obiettivi di Bayes dell'ISBA , le mie opinioni non sono rappresentative di tutti gli statistici bayesiani !, al contrario ...]

In sintesi, non esiste un precedente con "veramente nessuna informazione".

In effetti, il precedente "non informativo" è purtroppo un termine improprio. Qualsiasi distribuzione precedente contiene alcune specifiche simili a una quantità di informazioni. Anche (o soprattutto) l'uniforme precedente. In effetti, il precedente uniforme è piatto solo per una data parametrizzazione del problema. Se uno cambia in un'altra parametrizzazione (anche limitata), il cambiamento giacobino di variabile entra nel quadro e nella densità e il precedente non è più piatto.

Come sottolineato da Elvis, la massima entropia è un approccio raccomandato per selezionare i cosiddetti priori "non informativi". Richiede tuttavia (a) informazioni sufficienti su alcuni momenti della distribuzione precedente per specificare i vincoli che porta al MaxEnt precedente e (b) la scelta preliminare di una misura di riferimento [in contesti continui], una scelta che riporta il dibattito al suo stadio iniziale! (Inoltre, la parametrizzazione dei vincoli (ovvero la scelta diπ ( ) Θ h ( θ )h(θ)π()π ( θ ) exp { λ T h

Θh(θ)dπ(θ)=h0
d μ ( θ ) h
π(θ)exp{λTh(θ)}
dμ(θ)h) influisce sulla forma del MaxEnt risultante prima.)

José Bernardo ha prodotto una teoria originale dei priori di riferimento in cui sceglie il priore per massimizzare le informazioni fornite dai dati massimizzando la distanza di Kullback tra priore e posteriore. Nei casi più semplici senza parametri fastidiosi, la soluzione è la precedente di Jeffreys. In problemi più complessi, (a) deve essere fatta una scelta dei parametri di interesse (o anche una classifica del loro ordine di interesse); (b) il calcolo del priore è abbastanza coinvolto e richiede una sequenza di insiemi compatti incorporati per evitare problemi di impropria. (Vedi ad esempio The Bayesian Choice per i dettagli.)

In una svolta interessante, alcuni ricercatori al di fuori della prospettiva bayesiana hanno sviluppato procedure chiamate distribuzioni di confidenza che sono distribuzioni di probabilità sullo spazio dei parametri, costruite per inversione da procedure basate sulla frequenza senza una struttura preliminare esplicita o persino una misura dominante su questo spazio di parametri. Sostengono che questa assenza di un precedente ben definito è un vantaggio, sebbene il risultato dipenda sicuramente dalla scelta della procedura basata sulla frequenza di inizializzazione

In breve, non esiste una scelta "migliore" (o addirittura "migliore") per "il" "non informativo" precedente. E considero che le cose dovrebbero essere così perché la natura stessa dell'analisi bayesiana implica che la scelta della distribuzione precedente è importante. E che non c'è paragone di priori: uno non può essere "migliore" di un altro. (Almeno prima di osservare i dati: una volta osservato, il confronto dei priori diventa una scelta modello.) La conclusione di José Bernardo, Jim Berger, Dongchu Sun e molti altri bayesiani "oggettivi" è che ci sono priori di riferimento approssimativamente equivalenti usare quando non si è sicuri delle proprie informazioni precedenti o si cerca un'inferenza bayesiana di riferimento, alcuni di questi priori sono parzialmente supportati da argomenti di teoria dell'informazione,


14
(+1) Il tuo libro? Oh dannazione. Ho così 387 domande per te :)
Elvis

4
(+1) Per un obiettivo (non meno!), Risposta semplice.
cardinale il

2
+1 Grazie per una buona e ben informata panoramica dei problemi.
whuber

2
Una risposta eccezionale. Grazie. E ancora un altro libro da inserire nella lista dei desideri.
Fomite

1
È quasi ingiusto. Dopotutto, è Christian Robert! Stavo solo scherzando. Bella risposta. E mi piacerebbe che @ Xi'an potesse espanderlo in un post sul suo blog, in particolare su quanto la parametrizzazione sia importante per l'argomento dei priori "non informativi".
Manoel Galdino,

16

Una proprietà accattivante di priori formali non informativi è la "proprietà di abbinamento frequentista": significa che un intervallo di credibilità posteriore del 95% è anche (almeno, approssimativamente) un intervallo di fiducia del 95% in senso frequentista. Questa proprietà vale per il riferimento di Bernardo anche se le fondazioni di questi priori non informativi non sono orientate al raggiungimento di una buona proprietà di corrispondenza frequentista, se si utilizza un precedente non informativo "ingenuo" ("piatto") come la distribuzione uniforme o un gaussiano distribuzione con una varianza enorme, quindi non vi è alcuna garanzia che la proprietà di corrispondenza frequentista mantenga. Forse il priore di riferimento di Bernardo non poteva essere considerato la scelta "migliore" di un priore non informativo ma poteva essere considerato il più efficace.


9

Le distribuzioni di Jeffreys soffrono anche di incoerenze: i priori di Jeffreys per una variabile over o over sono impropri, il che non è il caso del Jeffreys prima di un parametro di probabilità : la misura ha una massa di over .( 0 , ) p d p / (,)(0,)p π(0,1)dp/p(1p)π(0,1)

Renyi ha dimostrato che una distribuzione non informativa deve essere associata a un integrale improprio. Vedi invece le distribuzioni di Lhoste che evitano questa difficoltà e sono invarianti rispetto ai cambiamenti delle variabili (ad esempio, per , la misura è ).d p / p ( 1 - p )pdp/p(1p)


Innanzitutto, la traduzione è buona!

Per E. LHOSTE: "Le calcul des probabilités appliqué à l'artillerie", Revue d'artillerie, tome 91, mai à août 1923

Per A. RENYI: "Su una nuova teoria assiomatica della probabilità" Acta Mathematica, Académie des Sciences hongroises, tomo VI, fasc.3-4, 1955

Posso aggiungere: M. DUMAS: "Lois de probabilité a priori de Lhoste", Scienze e tecniche di allarme, 56, 4ème fascicule, 1982, pp 687-715


3
È possibile riscriverlo in inglese, anche se lo si fa abbastanza male tramite un servizio di traduzione automatica come Google Translate? Altri utenti, più fluenti sia in francese che in inglese, possono aiutarti a copiarlo e modificarlo.
Silverfish,

3
Per quanto ricordo, il risultato di invarianza di Lhoste è limitato alle trasformazioni e per i parametri su e , rispettivamente. Altre trasformazioni da e a comporteranno diversi priori. logσlogp/(1p)(0,)(0,1)(0,)(0,1)R
Xi'an,

2
Dalla mia breve corrispondenza con Maurice Dumas nei primi anni '90, ricordo che scrisse una nota aux Comptes-Rendus de l'Académie des Sciences, dove usa le trasformazioni e per derivare " "priori invarianti". log()logit()
Xi'an,

3

Concordo con l'eccellente risposta di Xi'an , sottolineando che non esiste un unico priore "non informativo" nel senso di non fornire informazioni. Per approfondire questo argomento, ho voluto sottolineare che un'alternativa è quella di intraprendere l'analisi bayesiana all'interno di un quadro di probabilità impreciso (vedi in particolare Walley 1991 , Walley 2000 ). In questo quadro la credenza precedente è rappresentata da una serie di distribuzioni di probabilitàe questo porta a una serie corrispondente di distribuzioni posteriori. Potrebbe sembrare che non sarebbe molto utile, ma in realtà è abbastanza sorprendente. Anche con una serie molto ampia di distribuzioni precedenti (in cui determinati momenti possono variare su tutti i possibili valori) spesso si ottiene comunque una convergenza posteriore a un singolo posteriore come .n

Questo quadro analitico è stato assiomatizzato da Walley come propria forma speciale di analisi probabilistica, ma è sostanzialmente equivalente a una solida analisi bayesiana che utilizza un insieme di priori, producendo un corrispondente insieme di posteriori. In molti modelli è possibile impostare un insieme "non informativo" di priori che consente ad alcuni momenti (ad esempio, la media precedente) di variare su tutto il possibile intervallo di valori, e ciò produce comunque preziosi risultati posteriori, in cui i momenti posteriori sono limitati più strettamente. Questa forma di analisi ha probabilmente una migliore pretesa di essere definita "non informativa", almeno per quanto riguarda i momenti che sono in grado di variare su tutto il loro intervallo consentito.


Un semplice esempio: modello di Bernoulli: supponiamo di osservare i dati dove è il parametro sconosciuto di interesse. Di solito useremmo una densità beta come precedente (sia il precedente di Jeffrey sia il precedente di riferimento sono di questo modulo). Possiamo specificare questa forma di densità precedente in termini di media precedente e un altro parametro come:X1,...,Xn|θIID Bern(θ)θμκ>1

π0(θ|μ,κ)=Beta(θ|μ,κ)=Beta(θ|α=μ(κ1),β=(1μ)(κ1)).

(Questo modulo fornisce momenti precedenti e .) Ora, in un modello impreciso potremmo impostare il precedente in modo che sia l' insieme di tutte queste distribuzioni precedenti su tutti i possibili valori previsti , ma con l'altro parametro fissato per controllare la precisione nell'intervallo dei valori medi. Ad esempio, potremmo usare l'insieme di priori:E(θ)=μV(θ)=μ(1μ)/κ

P0{Beta(μ,κ)|0μ1}.

Supponiamo di osservare indicatori positivi nei dati. Quindi, usando la regola di aggiornamento per il modello Bernoulli-beta, il set posteriore corrispondente è:s=i=1nxi

Px={Beta(s+μ(κ1)n+κ1,n+κ)|0μ1}.

L'intervallo di valori possibili per l'aspettativa posteriore è:

sn+κ1E(θ|x)s+κ1n+κ1.

Ciò che è importante qui è che anche se abbiamo iniziato con un modello "non informativo" rispetto al valore atteso del parametro (l'aspettativa precedente variava su tutti i valori possibili), nondimeno finiamo con inferenze posteriori che sono informative rispetto all'aspettativa posteriore del parametro (ora vanno oltre un insieme più ristretto di valori). Come questo intervallo di valori è ridotto a un singolo punto, che è il vero valore di .nθ


+1. Interessante. Che cos'è kappa nell'ultima equazione? Dovrebbe essere una stella kappa?
ameba dice Ripristina Monica

Ho modificato per rimuovere la variazione in per dare un modello più semplice. Ora dovrebbe andare bene. κ
Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.