Bayesiani: schiavi della funzione di verosimiglianza?


62

Nel suo libro "Tutte le statistiche", il Prof. Larry Wasserman presenta il seguente esempio (11.10, pagina 188). Supponiamo di avere una densità tale che , dove è una funzione nota (non negativa, integrabile) e la costante di normalizzazione è sconosciuta .ff(x)=cg(x)c > 0gc>0

Siamo interessati a quei casi in cui non possiamo calcolare . Ad esempio, può essere che sia un pdf su uno spazio di campionamento di dimensioni molto elevate.c=1/g(x)dxf

È noto che esistono tecniche di simulazione che ci consentono di campionare da , anche se è sconosciuto. Quindi, il puzzle è: come possiamo stimare da un tale campione?fcc

Prof. Wasserman descrive la seguente soluzione bayesiana: lasciate essere qualche preventiva per . La probabilità è Pertanto, il posteriore non dipende dai valori del campione . Quindi, un bayesiano non può usare le informazioni contenute nel campione per fare inferenze su .πcπ ( c x ) c n π ( c ) x 1 , , x n c

Lx(c)=i=1nf(xi)=i=1n(cg(xi))=cni=1ng(xi)cn.
π(cx)cnπ(c)
x1,,xnc

Il prof. Wasserman sottolinea che "i bayesiani sono schiavi della funzione di verosimiglianza. Quando la verosimiglianza va storta, così farà l'inferenza bayesiana".

La mia domanda per i miei colleghi impilatori è: riguardo a questo esempio particolare, cosa è andato storto (se non altro) con la metodologia bayesiana?

PS Come il Prof. Wasserman ha gentilmente spiegato nella sua risposta, l'esempio è dovuto a Ed George.


10
Questo esempio sembra semplicemente un bizzarro modo inefficace per condurre l'integrazione numerica piuttosto che qualsiasi analisi bayesiana.
whuber

2
Come puoi dire che il bayesiano non impara nulla di . Se così fosse avremmo . Chiaramente no. π ( c | x ) π ( c )cπ(c|x)π(c)
Probislogic

2
Non capisco davvero questo esempio. Se non dipende da non sorprende che i dati non siano informativi in ​​quanto dipende solo dalla forma di ed è lo stesso per campione? Mi manca ovviamente qualche punto sottile (o non così sottile). c c g ( ) a n yg()ccg()any
Dikran Marsupial,

Ho escogitato un approccio formalmente bayesiano che può superare l'obiezione di @ Zen, non controindica la mancanza di interesse di Xi'an e finisce solo per valutare l'accuratezza dell'integrazione numerica.
Phaneron,

1
Un bel seguito sul blog di Larry: normaldeviate.wordpress.com/2012/10/05/…
Zen

Risposte:


43

Questo è stato discusso nel mio articolo (pubblicato solo su Internet) "Su un esempio di Larry Wasserman" [ 1 ] e in uno scambio di blog tra me, Wasserman, Robins e alcuni altri commentatori sul blog di Wasserman: [ 2 ]

La risposta breve è che Wasserman (e Robins) generano paradossi suggerendo che i priori in spazi ad alta dimensione "devono" avere caratteristiche che implicano o che il parametro di interesse è noto a priori con quasi certezza o che un problema chiaramente rilevante (distorsione di selezione) è noto con quasi certezza da non essere presente. In effetti, i preti sensibili non avrebbero queste caratteristiche. Sto scrivendo un post di blog riassuntivo per disegnarlo insieme. C'è un eccellente documento del 2007, che mostra sensibili approcci bayesiani agli esempi che Wasserman e Ritov considerano, di Hameling e Toussaint: "Stimatori bayesiani per il problema di Robins-Ritov" [ 3 ]


12
Grazie per il tuo contributo, Prof. Sims. Sei d'accordo con la mia risposta qui sotto? PS Ora abbiamo pubblicato i premi Nobel su SE. Che ne dici di quello? nobelprize.org/nobel_prizes/economics/laureates/2011/sims.html
Zen

1
@ChrisSims Professor Sims Grazie per essere venuto e aver spazzato via la mia risposta con la tua risposta molto autorevole!
Michael Chernick,

4
Sono allarmato dal fatto che questa risposta abbia il totale più alto dei voti (al momento). Come osserva il prof. Wasserman, la risposta del prof. Sims riguarda un enigma completamente diverso da quello di cui lo Zen ha chiesto. Ne deduco che molte persone lo hanno votato senza aver letto e compreso i collegamenti forniti da Sims.
Ciano

3
Ciano, puoi trovare i commenti del Prof. Sim riguardo a questo puzzle in Link [1], WassermanComment.pdf, p. 10, Sezione VII. Postscript 2.
madprob

43

Non vedo molto appello in questo esempio, esp. come potenziale critica dei bayesiani e della probabilità-wallah ... La costante è nota, essendo uguale a Se è l'unico " sconosciuto "nella foto, dato un esempio , quindi non esiste alcun problema statistico sul problema e non sono d'accordo sul fatto che esistano stimatori di . Né priori su (diversi dalla massa di Dirac sul valore sopra). Questo non è affatto un problema statistico ma piuttosto un problema numerico .1 /X g ( x ) d x c x 1 , , x n c cc

1/Xg(x)dx
cx1,,xncc

Che il campione possa essere usato attraverso una stima della densità (frequentista) per fornire un'approssimazione numerica di è una mera curiosità. Non una critica di approcci statistici alternativi: potrei anche usare una stima della densità bayesiana ... cx1,,xnc


4
Non è possibile iniziare con un precedente adeguato e finire con un posteriore improprio se la probabilità è una vera densità condizionata!
Xi'an,

Come definire la differenza tra una costante sconosciuta e un parametro? In Introduzione alla probabilità, de Finetti considera di suscitare la tua incertezza per . De Finetti considererebbe comunque diverso da ? In caso contrario, osservando i dati cambierebbe la sua incertezza su ? Anche per quanto riguarda costanti / parametri sconosciuti. Diciamo che Alice sceglie una costante e digita , . Sebbene sia una costante sconosciuta Bob sarebbe in grado di ottenere il suo precedente per e usare per conoscereπcπX1,X2,,XnccRx=rnorm(100,c,1)ccxc. Perché nell'esempio di Wasserman è diverso? c
madprob,

3
Non sono de Finetti, quindi non posso rispondere per lui!
Xi'an,

3
Il tuo esempio è statistico: ottengo osservazioni la cui distribuzione sottostante è governata da un parametro sconosciuto c . L'esempio di Larry (o di Ed!) Non è statistico: la distribuzione del campione è completamente nota e non guidata da un parametro sconosciuto c . Questo è ulteriormente illustrato dalla risposta di Zen : semplicemente non puoi scrivere senza terminare con un paradosso, perché esiste un solo valore possibile di c. f(x1,,xn|c)
Xi'an,

40

Sono d'accordo che l'esempio è strano. Volevo dire che era più un puzzle davvero. (L'esempio è in realtà dovuto a Ed George.)

Solleva la questione di cosa significhi che qualcosa sia "conosciuto". Christian dice che è noto. Ma, almeno dal punto di vista della probabilità puramente soggettiva, non lo conosci solo perché in linea di principio può essere conosciuto. (Supponiamo che tu non possa fare l'integrale numerico.) Un bayesiano soggettivo considera tutto come una variabile casuale con una distribuzione, incluso .cc

Ad ogni modo, il giornale

A. Kong, P. McCullagh, X.-L. Meng, D. Nicolae e Z. Tan (2003), Una teoria dei modelli statistici per l'integrazione di Monte Carlo , J. Royal Statistic. Soc. B , vol. 65, n. 3, 585–604

(con discussione) tratta essenzialmente lo stesso problema.

L'esempio a cui Chris Sims fa riferimento nella sua risposta è di natura molto diversa.


3
Professor Wasserman Grazie per essere venuto e aver spiegato il tuo esempio e la sua storia. Ero uno studente laureato a Stanford e si sovrapponeva a Ed George. Il Dipartimento di Statistica di Stanford a quei tempi era molto non bayesiano, sebbene con Efron e Stein eravamo ai margini di Bayes empirici. Il dipartimento era molto aperto e Dennis Lindley tenne un corso di laurea in statistica bayesiana che ho seguito un'estate. In qualche modo Ed si è convertito a diventare un vero bayesiano e ha persino scritto un articolo sul campionamento di Gibbs per i manichini (anche se non con quel titolo ovviamente).
Michael Chernick,

1
Ho e mi diverto a leggere i tuoi piccoli libri "Tutte le statistiche" e "Tutte le nonparametriche".
Michael Chernick,

1
forse non per coincidenza, ho discusso questo articolo di Kong et al. (2003), essendo principalmente negativo sull'efficienza dell'utilizzo delle trasformazioni di gruppo sulla misura piuttosto che sulla distribuzione. Ultimamente, Xiao-Li mi ha orientato verso una percezione più positiva del documento ...
Xi'an,

1
"Supponi di non poter fare l'integrale numerico." Comprendo che l'incertezza logica (di cui questo è un esempio) ha resistito all'analisi nonostante notevoli sforzi.
John Salvatier,

Con la stessa logica che è sconosciuta perché non puoi calcolarla, penso che dovresti anche concludere che la funzione è "sconosciuta" e mettere un precedente sullo spazio funzionale in cui vive. Certamente "sai" , , ... perché puoi valutare , ma dal punto di vista dell'analisi funzionale sostengo che non "conosci" quale sia una funzione a meno che tu non possa testarla contro qualsiasi elemento del doppio spazio, come l'integrazione funzionale. cgg(x1)g(x2)g
Nick Alger,

23

Il modello statistico proposto può essere descritto come segue: Si dispone di una nota non negativa funzione integrabile , e non negativa casuale variabile . Le variabili casuali dovrebbero essere condizionatamente indipendenti e distribuite in modo identico, dato che , con densità condizionale , per .g:RRCX1,,XnC=cfXiC(xic)=cg(xi)c>0

Sfortunatamente, in generale, questa non è una descrizione valida di un modello statistico. Il problema è che, per definizione, deve essere una densità di probabilità per quasi ogni possibile valore di , che è, in generale, chiaramente falso. In realtà, è vero solo per il singolo valore . Pertanto, il modello è correttamente specificato solo nel caso banale quando la distribuzione di è concentrata su questo particolare valore. Naturalmente, non siamo interessati a questo caso. Ciò che vogliamo è che la distribuzione di sia dominata dalla misura di Lebesgue, con un buon pdf .fXiC(c) cc=(g(x)dx)1CCπ

Quindi, definendo , l'espressione considerata come una funzione di , per fisso , non corrisponde a una vera funzione di verosimiglianza.x=(x1,,xn)

Lx(c)=i=1n(cg(xi)),
cx

Tutto ciò che segue eredita da questo problema. In particolare, il posteriore calcolato con il teorema di Bayes è falso. È facile capire che: supponi di avere un precedente appropriato Nota che . Secondo il calcolo presentato nell'esempio, il posteriore dovrebbe essere Ma se fosse giusto, questo posteriore sarebbe sempre improprio, perché diverge per ogni dimensione del campione .

π(c)=1c2I[1,)(c).
0π(c)dc=1
π(cx)1c2nI[1,)(c).
01c2nI[1,)(c)dc
n1

Questo è impossibile: sappiamo che se iniziamo con un precedente adeguato, il nostro posteriore non può essere improprio per ogni possibile campione (potrebbe essere improprio all'interno di una serie di probabilità predittive nulle precedenti).


Mi dispiace che nessuno abbia commentato la tua risposta. Penso che potresti avere ragione, ma sono un po 'perplesso. Certamente puoi mettere valide distribuzioni precedenti sui numeri reali positivi. Perché non è possibile definire una densità di probabilità f per ogni c> 0 se g è non negativo con un integrale finito su R ? +
Michael Chernick,

1
Ciao Michael Ovviamente puoi: Gamma, Lognormal, ecc. Ecc. Non vedo come questo sia correlato alla risposta. Probabilmente non capisco cosa stai dicendo.
Zen,

Bene, ho problemi a seguire la tua discussione. Dici che la densità condizionale per f esiste solo per una c ma non è vero. Non vedo perché l'espressione per la probabilità non sia valida e come si ottenga una prova per contraddizione assumendo un precedente adeguato e dimostrando in qualche modo che conduce a una distribuzione posteriore impropria.
Michael Chernick,

Mi sembra che il nocciolo del problema sia che i dati sono realmente indipendenti da c e non contengono informazioni su c. Penso che si possa dire che esiste una funzione di verosimiglianza che coinvolge c, ma questa verosimiglianza non può essere massimizzata in funzione di c. Per ogni scelta di c penso che ci sia un f = cg.
Michael Chernick,

4
Nel tuo esempio funzionerebbe anche qualsiasi precedente adeguato senza ennesimo momento. Sono d'accordo che questo è un modo utile per dimostrare che qualcosa non va. Il mio pensiero è più che il precedente non si basa sulla conoscenza di . Perché conosci C'è solo un precedente coerente con queste informazioni. Questa è la funzione delta dirac . Utilizzare qualsiasi altro precedente è logicamente errato. È un po 'come dire quando non è indipendente da datog(.)g(.)p(c|g(.))=δ(c0g(x)dx)p(Z|XY)p(Z|X)YZX
Probislogic

11

L'esempio è un po 'strano e inventato. Il motivo per cui la probabilità va storto è perché g è una funzione nota . L'unico parametro sconosciuto è c che non fa parte della probabilità. Inoltre, poiché g è noto, i dati non forniscono informazioni su f. Quando vedi una cosa del genere in pratica? Quindi il posteriore è solo proporzionale al precedente e tutte le informazioni su c sono nel precedente.

Va bene ma pensaci. I frequentatori usano la massima verosimiglianza e quindi il frequentatore a volte fa affidamento anche sulla funzione di verosimiglianza. Bene, il frequentatore può stimare i parametri in altri modi che potresti dire. Ma questo problema risolto ha solo un parametro c e non ci sono informazioni nei dati su c. Poiché g è noto, non esiste alcun problema statistico relativo a parametri sconosciuti che possono essere estratti dal periodo di dati.


Grazie Michael. Strana situazione, no? Il Prof. Wasserman suggerisce il seguente modo per stimare : prendere qualsiasi stimatore (frequentista) coerente della densità (un qualche tipo di stimatore del kernel, per esempio). Scegli un punto arbitrario e nota che è uno stimatore coerente di . cf^fxc^=f^(x)/g(x)c
Zen

4
@Zen Ok, facciamo questo esempio. Perché raccogliere tutti i dati? Conosciamo g. Quindi possiamo integrarlo numericamente per determinare c a qualunque livello di precisione desideriamo senza dover stimare nulla! Il presupposto che non possiamo calcolare c significa che anche se conosciamo g in funzione di x non possiamo integrarlo! Penso che il suo esempio sia debole, così come l'argomento e mi piacciono i suoi libri in generale.
Michael Chernick,

11

C'è l'ironia che il modo standard di fare il calcolo bayesiano sia quello di utilizzare l'analisi frequentista dei campioni MCMC. In questo esempio potremmo considerare come strettamente correlato alla probabilità marginale, che vorremmo calcolare, ma saremo puristi bayesiani nel senso di provare a fare anche il calcolo in modo bayesiano.c

Non è comune, ma è possibile fare questo integrale in un quadro bayesiano. Ciò implica mettere un prioritario sulla funzione (in pratica un processo gaussiano) valutando la funzione in alcuni punti, condizionando questi punti e calcolando un integrale sul posteriore su . In questa situazione la probabilità implica la valutazione di in un certo numero di punti, ma è altrimenti sconosciuto, quindi la probabilità è abbastanza diversa dalla probabilità sopra indicata. Il metodo è dimostrato in questo documento http://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdfg()g()g()g()

Non credo che qualcosa sia andato storto con la metodologia bayesiana. La probabilità come scritta tratta come conosciuta ovunque. Se così fosse, non ci sarebbe alcun aspetto statistico al problema. Se si assume che sia sconosciuto, tranne che per un numero finito di punti, la metodologia bayesiana funziona bene.g()g()


Sorpreso, questo non ha più voti. Questo arriva al cuore del problema, che è l'ambigua affermazione che "sai" cos'è una funzione solo perché puoi valutarla in qualsiasi momento. Penso che un criterio più appropriato per dire che "conosci" una funzione è la capacità di valutare qualsiasi funzione lineare continua su di essa.
Nick Alger,

@ Nick Alger: la gente ha probabilmente perso interesse. Non lo sto votando perché non sono convinto che sia Bayes - la xi nell'insieme D (xi, f (xi)) si riferisce alla xi osservata nello studio o generata casualmente da loro? Se è il primo, è Bayes ma è molto facile da battere con un semplice MC con pochi secondi di tempo di calcolo (quindi non funziona bene) o non è Bayes (non ha condizionato i dati).
Phaneron,

-2

Potremmo estendere la definizione di possibili noti (analoga all'estensione dei dati per consentire la mancanza di dati per il dato che è stato osservato ma perso) per includere NULL (nessun dato generato).

Supponi di avere un precedente corretto Ora definisci il modello di dati per x

π(c)=1c2I[1,)(c).

Sec=(g(x)dx)1

fXaC(xac)fXiC(xic)=c1g(xi) {a per qualsiasi}

AltrimentifaXaC(xac)=0

Quindi il posteriore sarebbe 0 o 1 (corretto) ma la probabilità dal modello di dati di cui sopra non è disponibile (perché non è possibile determinare la condizione richiesta nel modello di dati).

Quindi fai ABC.

Disegna una "c" dal precedente.

Ora approssimativo con una certa integrazione numerica e mantieni "c" se quell'approssimazione - "c" <epsilon.(g(x)dx)1

Le "c" mantenute saranno un'approssimazione del vero posteriore.

(La precisione dell'approssimazione dipenderà da epsilon e dalla sufficienza del condizionamento su tale approssimazione.)


-5

Aspetta cosa? Hai quindi dipende dai valori di . Solo perché nascondi la dipendenza in un " " non significa che puoi ignorarla?{ x i }

π(c|x)=(Πig(xi))cnπ(c),
{xi}

2
Caro confuso: l'equazione sopra è sbagliata. Dov'è il denominatore (la probabilità marginale di )? Dividi per e vedrai che si annullerà. Il "posteriore" nel libro è sbagliato per altri motivi. Per favore, controlla la mia risposta. f ( x c )xn i = 1 g ( x i )f(xc)π(c)dci=1ng(xi)
Zen,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.