Elenco di situazioni in cui un approccio bayesiano è più semplice, più pratico o più conveniente


63

Ci sono stati molti dibattiti nelle statistiche tra bayesiani e frequentisti. In genere li trovo piuttosto scoraggianti (anche se penso che sia morto). D'altra parte, ho incontrato diverse persone che hanno una visione del tutto pragmatica del problema, dicendo che a volte è più conveniente condurre un'analisi frequentista e talvolta è più facile eseguire un'analisi bayesiana. Trovo questa prospettiva pratica e rinfrescante.

Mi viene in mente che sarebbe utile avere un elenco di tali casi. Perché ci sono troppe analisi statistiche, e poiché presumo che di solito sia più pratico condurre un'analisi frequentista (la codifica di un test t in WinBUGS è considerevolmente più coinvolta della singola chiamata di funzione richiesta per eseguire la versione basata su frequentista in R , per esempio), sarebbe bello avere un elenco delle situazioni in cui un approccio bayesiano è più semplice, più pratico e / o più conveniente di un approccio frequentista.


(Due risposte che non mi interessano sono: "sempre" e "mai". Capisco le persone hanno opinioni forti, ma per favore non metterle in onda qui. Se questa discussione diventa un luogo per piccoli litigi, probabilmente eliminerò Il mio obiettivo qui è quello di sviluppare una risorsa che sarà utile per un analista con un lavoro da svolgere, non un'ascia da macinare.)

Le persone sono invitati a suggerire più di un caso, ma si prega di utilizzare risposte separate per farlo, in modo che ogni situazione possa essere valutata (votata / discussa) individualmente. Le risposte dovrebbero elencare: (1) qual è la natura della situazione e (2) perché l'approccio bayesiano è più semplice in questo caso. Qualche codice (diciamo, in WinBUGS) che dimostra come sarebbe fatta l'analisi e perché la versione bayesiana sia più pratica sarebbe l'ideale, ma mi aspetto che sia troppo ingombrante. Se può essere fatto facilmente, lo apprezzerei, ma per favore includi il perché in entrambi i casi.

Infine, riconosco di non aver definito cosa significhi che un approccio sia "più semplice" di un altro. La verità è che non sono del tutto sicuro di cosa significhi per un approccio essere più pratico dell'altro. Sono aperto a diversi suggerimenti, basta specificare la tua interpretazione quando spieghi perché un'analisi bayesiana è più conveniente nella situazione che stai discutendo.


7
La modellazione multilivello è sicuramente più facile per bayesiana, soprattutto concettualmente.
Probislogic

All'interrogatore potrebbe non piacere, ma in realtà non ci si può aggirare pensando e capendo cosa stanno realmente facendo i metodi di inferenza o di modellazione e come interpretarli. Ha poco senso cercare quale è più semplice quando raggiungono obiettivi diversi.

1
Sto bene con il consiglio di pensare chiaramente a cosa stai cercando di fare e come funzionano le analisi, @Mayo. Ho dato quel consiglio da solo ;-). Conosco anche l'idea che le analisi bayesiane e frequentiste facciano ipotesi diverse sulla natura della probabilità. Tuttavia, come noto nella domanda, ho incontrato diverse persone (ad esempio, i dottorandi che capiscono abbastanza bene i problemi) che affermano che ci sono momenti in cui sono sufficientemente simili e che 1 è più conveniente. Le altre risposte dimostrano che è possibile fornire tali esempi. Mi piacerebbe vedere altri casi che conosci.
gung - Ripristina Monica

Solo curioso - quando dici "l'analisi del frequentista è più pratica" stai parlando del software - come l'uso lm ()in R è più facile da usare? O c'è qualcos'altro?
probabilityislogic

@probabilityislogic, essenzialmente. Il mio esempio sta usando t.test()invece di codificare un test t bayesiano in WinBUGS, che richiede molto più codice. Forse invece di "più pratico", avrei dovuto dire "più facile".
gung - Ripristina Monica

Risposte:


26

(1) In contesti in cui la funzione di probabilità è intrattabile (almeno numericamente), l'uso dell'approccio bayesiano, mediante calcolo bayesiano approssimativo (ABC), ha guadagnato terreno su alcuni concorrenti frequentisti come le probabilità composite ( 1 , 2 ) o la probabilità empirica perché tende ad essere più facile da implementare (non necessariamente corretta). Per questo motivo, l'uso dell'ABC è diventato popolare in aree in cui è comune imbattersi in probabilità intrattabili come biologia , genetica ed ecologia . Qui, potremmo menzionare un oceano di esempi.

Alcuni esempi di probabilità intrattabili sono

  • Processi sovrapposti. Cox e Smith (1954) hanno proposto un modello nel contesto della neurofisiologia che consiste in processi a punti sovrapposti. Ad esempio, considera i tempi tra gli impulsi elettrici osservati in una parte del cervello che sono stati emessi da diversi neuroni durante un certo periodo. Questo campione contiene osservazioni non iid che rendono difficile costruire la probabilità corrispondente, complicando la stima dei parametri corrispondenti. In questo articolo è stata recentemente proposta una soluzione (parziale) per frequentisti . Anche l'implementazione dell'approccio ABC è stata recentemente studiata e può essere trovata qui .N

  • La genetica della popolazione è un altro esempio di modelli che portano a probabilità intrattabili. In questo caso l'intrattabilità ha una natura diversa: la probabilità è espressa in termini di un integrale multidimensionale (a volte di dimensione ) che richiederebbe un paio di decenni solo per valutarlo in un unico punto. Questa zona è probabilmente il quartier generale della ABC.1000+


1
Questi sono fantastici! Puoi dividerli in 2 risposte (in modo che io possa votarti due volte ;-) e fornire solo un tipico esempio (giocattolo)? Grazie.
gung - Ripristina Monica

2
@Procrastinator Potresti approfondire il motivo per cui in alcuni contesti la probabilità è intrattabile. Dato che menzioni biologia, genetica ed ecologia, immagino che sia collegato alle complesse dipendenze tra i parametri. Penso che ciò sarebbe particolarmente utile per le persone che non hanno familiarità con l'analisi bayesiana (di cui io sono), soprattutto dato che la pagina di Wikipedia su ABC a cui ti colleghi non fornisce molto contesto. Grazie
Antoine Vernet,

15

Con il miglioramento del software bayesiano, il problema "più facile da applicare" diventa controverso. Il software bayesiano viene impacchettato in forme sempre più semplici. Un recente caso in questione è tratto da un articolo intitolato, la stima bayesiana sostituisce il test t . Il seguente sito Web fornisce collegamenti all'articolo e al software: http://www.indiana.edu/~kruschke/BEST/

Un estratto dall'introduzione dell'articolo:

... alcune persone hanno l'impressione che le conclusioni del NHST e dei metodi bayesiani tendano a concordare in situazioni semplici come il confronto di due gruppi: "Quindi, se la tua domanda principale di interesse può essere semplicemente espressa in una forma suscettibile di test, diciamo , non c'è davvero bisogno di provare ad applicare l'intero apparato bayesiano a un problema così semplice ”(Brooks, 2003, p. 2694). Questo articolo mostra, al contrario, che la stima dei parametri bayesiani fornisce informazioni molto più ricche rispetto al test t NHST e che le sue conclusioni possono differire da quelle del test t NHST. Le decisioni basate sulla stima dei parametri bayesiani sono meglio fondate di quelle basate sul NHST, indipendentemente dal fatto che le decisioni derivate dai due metodi siano o meno d'accordo.


10
Capisco che la tua risposta sia o sempre o "sarà sempre presto". Questa è la risposta di un partigiano bayesiano.
gung - Ripristina Monica

3
Ed ecco un'implementazione javascript online del MIGLIORE di Kruschke. Analisi bayesiana nel browser :) sumsar.net/best_online
Rasmus Bååth

13

(2) Modelli di resistenza allo stress. L'uso di modelli di resistenza allo stress è popolare in termini di affidabilità. L'idea di base consiste nella stima del parametro cui e sono variabili casuali. È interessante notare che il calcolo della probabilità del profilo di questo parametro è abbastanza difficile in generale (anche numericamente) ad eccezione di alcuni esempi di giocattoli come il caso esponenziale o normale. Per questo motivo, è necessario considerare soluzioni ad hoc per il frequentista come la probabilità empirica ( vediθ=P(X<Y)XY) o intervalli di confidenza la cui costruzione è difficile anche in un quadro generale. D'altra parte, l'uso di un approccio bayesiano è molto semplice dato che se si dispone di un campione della distribuzione posteriore dei parametri delle distribuzioni di e , è possibile trasformarli facilmente in un campione del posteriore di .XYθ

Sia una variabile casuale con densità e distribuzione date rispettivamente da e . Allo stesso modo, sia una variabile casuale con densità e distribuzione date rispettivamente da e . PoiXf(x;ξ1)F(x;ξ1)Yg(y;ξ2)G(y;ξ2)

()θ=F(y;ξ1)g(y;ξ2)dy.

Si noti che questo parametro è una funzione dei parametri . Nei casi esponenziali e normali, questo può essere espresso in forma chiusa ( vedi ), ma non è questo il caso in generale (vedi questo documento per un esempio). Ciò complica il calcolo della probabilità del profilo di e di conseguenza l'inferenza dell'intervallo classico su questo parametro. Il problema principale può essere riassunto come segue "Il parametro di interesse è una funzione sconosciuta / complicata dei parametri del modello e quindi non possiamo trovare una riparameterizzazione che coinvolga il parametro di interesse".θ(ξ1,ξ2)θ

Dal punto di vista bayesiano questo non è un problema dato che se abbiamo un campione dalla distribuzione posteriore di , allora possiamo semplicemente inserire questi campioni in per ottenere un campione del posteriore di e fornisce l'interferenza di intervallo per questo parametro.( ) θ(ξ1,ξ2)()θ


4
+1 per entrambe le risposte - questi sono esempi interessanti. Sembri presumere che la soluzione del frequentista debba essere basata sulla verosimiglianza, apparentemente ignorando i metodi non parametrici. In questo caso particolare, i metodi frequentemente non parametrici del capitolo 5 del libro che mi hai collegato mi sembrano almeno facili da usare come i metodi bayesiani.
Martedì

@ MånsT Un buon punto. In effetti, questa risposta si concentra sull'inferenza bayesiana rispetto alla verosimiglianza. Qualche tempo fa ho scritto una risposta su una soluzione non parametrica di questo problema che, come lei sottolinea, è facile come l'approccio bayesiano.

@ MånsT & Procrastinator, anch'io avevo votato a favore. Non mi è chiaro cosa significhi "più semplice" nel contesto di questa domanda / i commenti che mi sono stati fatti negli anni che l'hanno spinto. Per lo più volevo escludere risposte laddove l'analista avesse una posizione teorica tale che si fosse sempre meglio per ragioni estranee alla situazione. Tale posizione è difendibile, ovviamente, e ci sono molti posti su Internet per visualizzare tali argomenti (compresi alcuni su CV), ma a parte questo ho pensato che sarebbe interessante avere un posto dove le persone elencano casi in cui userebbe l'altro e perché.
gung - Ripristina Monica

13

Sono stato addestrato in statistiche frequentiste (in realtà l'econometria), ma non ho mai avuto una posizione di confronto nei confronti dell'approccio bayesiano, dal momento che il mio punto di vista è che la fonte filosofica di questa battaglia "epica" era fondamentalmente fuorviata dall'inizio (ho mandato in onda le mie opinioni qui ). In effetti, ho intenzione di allenarmi anche nell'approccio bayesiano nell'immediato futuro.

Perché? Perché uno degli aspetti della statistica frequentista che mi affascina di più in quanto sforzo matematico e concettuale, allo stesso tempo mi preoccupa di più: gli asintotici a dimensione di campione. Almeno in econometria, quasi nooggi un serio documento afferma che uno dei vari stimatori normalmente applicati in econometria frequentista possiede una delle desiderabili proprietà "a piccolo campione" che vorremmo da uno stimatore. Si basano tutti su proprietà asintotiche per giustificare il loro uso. La maggior parte dei test usati ha proprietà desiderabili solo asintoticamente ... Ma non siamo più in "z-land / t-land": tutto l'apparato sofisticato (e formidabile) della moderna stima e inferenza del frequentatore è anche altamente idiosincratico, il che significa che a volte, un laaaaaaaaa ... un grande campione è effettivamente necessario per far emergere queste preziose proprietà asintotiche e influenzare favorevolmente le stime derivate dagli stimatori, come è stato dimostrato da varie simulazioni. Significa decine di migliaia di osservazioni, che sebbene inizino a diventare disponibili per alcuni settori dell'attività economica (come i mercati del lavoro o finanziari), ce ne sono altri (come la macroeconomia) in cui non lo faranno mai (almeno durante la mia vita). E sono abbastanza infastidito da questo, perché rende veramente i risultati derivatiincerto (non solo stocastico).

L'econometria bayesiana per piccoli campioni non si basa su risultati asintotici. "Ma fanno affidamento sul priore soggettivo !" è la solita risposta ... alla quale, la mia semplice, pratica, risposta è la seguente: "se il fenomeno è vecchio e studiato prima, il precedente può essere stimato dai dati passati. Se il fenomeno è nuovo , da cos'altro se non con argomenti soggettivi possiamo iniziare la discussione al riguardo ?


5
Questa è una prospettiva utile, ma nota che ci sono approcci frequentisti che non si basano molto sugli asintotici, come le simulazioni Monte Carlo, il bootstrap e i test di permutazione.
gung - Ripristina Monica

1
E se si cerca di ottenere il meglio da entrambi i mondi? Un tentativo: Bartels, Christian (2017): usare le conoscenze precedenti nei test frequentisti. figshare. doi.org/10.6084/m9.figshare.4819597.v3 Estratto: 17 18, 10 maggio 2017 (GMT)
user36160

13

Questa è una risposta tardiva, tuttavia spero che aggiunga qualcosa. Sono stato addestrato in telecomunicazioni dove la maggior parte delle volte utilizziamo l'approccio bayesiano.

Ecco un semplice esempio: supponiamo che tu possa trasmettere quattro possibili segnali di +5, +2,5, -2,5 e -5 volt. Uno dei segnali di questo set viene trasmesso, ma il segnale viene danneggiato dal rumore gaussiano quando raggiunge l'estremità ricevente. In pratica, anche il segnale viene attenuato, ma elimineremo questo problema per semplicità. La domanda è: se ci si trova all'estremità di ricezione, come si progetta un rivelatore che indica quale di questi segnali è stato originariamente trasmesso?

Questo problema risiede ovviamente nel dominio del test delle ipotesi. Tuttavia, non è possibile utilizzare i valori p, poiché i test di significatività possono potenzialmente respingere tutte e quattro le ipotesi possibili e si sa che uno di questi segnali è stato effettivamente trasmesso. Possiamo usare il metodo Neyman-Pearson per progettare un rivelatore in linea di principio, ma questo metodo funziona meglio per le ipotesi binarie. Per più ipotesi, diventa troppo goffo quando è necessario affrontare un vincolo numerico per probabilità di falsi allarmi. Una semplice alternativa è data dal test di ipotesi bayesiana. Ognuno di questi segnali avrebbe potuto essere scelto per essere trasmesso, quindi il precedente è equiprobabile. In tali casi equiprobabili, il metodo si riduce alla scelta del segnale con la massima probabilità. A questo metodo può essere data una bella interpretazione geometrica: scegli il segnale che sembra essere il più vicino al segnale ricevuto. Ciò porta anche alla suddivisione dello spazio decisionale in un certo numero di regioni decisionali, in modo tale che se il segnale ricevuto dovesse rientrare in una particolare regione, si decide che l'ipotesi associata a quella regione decisionale è vera. Pertanto, la progettazione di un rivelatore è resa semplice.


4
Grazie per aver condiviso la tua esperienza con noi. Benvenuti nel nostro sito!
whuber

4

I cosiddetti test statistici "frequentisti" sono in genere equivalenti all'approccio bayesiano in linea di principio più complesso sotto determinate ipotesi. Quando queste ipotesi sono applicabili, allora entrambi gli approcci daranno lo stesso risultato, quindi è sicuro usare il test Frequentist più facile da applicare. L'approccio bayesiano è più sicuro in generale perché rende esplicite le ipotesi, ma se sai cosa stai facendo il test Frequentist è spesso altrettanto efficace di un approccio bayesiano e in genere più facile da applicare.


1
Grazie. Si noti che i test per frequentisti sono "in genere più facili da applicare". Conosci una situazione specifica quando non è così (se F è solo "tipicamente" più semplice, ci devono essere alcuni di questi casi). Per il momento, possiamo mettere da parte i problemi di quale approccio sarebbe "più sicuro" e concentrarci solo sulla parte più facile da applicare .
gung - Ripristina Monica

4

(Proverò quello che pensavo fosse il tipo più tipico di risposta.)

Diciamo che hai una situazione in cui ci sono diverse variabili e una risposta e sai molto su come una delle variabili dovrebbe essere correlata alla risposta, ma non tanto sulle altre.

In una situazione come questa, se si dovesse eseguire un'analisi di regressione multipla standard, quella conoscenza precedente non verrebbe presa in considerazione. Una meta-analisi potrebbe essere condotta in seguito, il che potrebbe essere interessante nel chiarire se il risultato attuale era coerente con gli altri risultati e potrebbe consentire una stima leggermente più precisa (includendo le conoscenze precedenti a quel punto). Ma questo approccio non permetterebbe a ciò che era noto su quella variabile di influenzare le stime delle altre variabili.

Un'altra opzione è che sarebbe possibile codificare e ottimizzare la propria funzione che corregge la relazione con la variabile in questione e trova i valori dei parametri per le altre variabili che massimizzano la probabilità dei dati data tale restrizione. Il problema qui è che mentre la prima opzione non limita adeguatamente la stima beta, questo approccio la limita in misura eccessiva.

Potrebbe essere possibile elaborare un algoritmo che giustifichi la situazione in modo più appropriato, situazioni come questa sembrano candidati ideali per l'analisi bayesiana. Chiunque non si opponga dogmaticamente all'approccio bayesiano dovrebbe essere disposto a provarlo in casi come questo.


2

Un'area di ricerca in cui i metodi bayesiani sono estremamente semplici e i metodi frequentisti sono estremamente difficili da seguire è quella del design ottimale .

In una versione semplice del problema, si desidera stimare un singolo coefficiente di regressione di una regressione logistica nel modo più efficiente possibile. Puoi prendere un singolo campione con uguale a quello che desideri, aggiornare la tua stima per e quindi scegliere la tua prossima , ecc. Fino alla tua stima per incontra un certo livello di precisione. β x ( 2 ) βx(1)βx(2)β

La parte difficile è che il vero valore di determinerà quale sia la scelta ottimale di . Potresti considerare di utilizzare la stima corrente di di con la consapevolezza che stai ignorando l'errore in . Come tale, è possibile ottenere una scelta forse leggermente non ottimale di data una stima ragionevole di .x ( i ) β β β x ( i ) ββx(i)β^ββ^x(i)β

Ma che dire di quando inizi? Non hai una stima frequentista di , perché non hai dati . Quindi dovrai raccogliere alcuni dati (sicuramente in modo molto non ottimale), senza molta teoria guida per dirti cosa scegliere. E anche dopo alcune scelte, l' effetto Hauck-Donner può ancora impedirti di avere una stima definita di . Se leggi nella letteratura frequentista su come gestirlo, in pratica è "scegli casualmente 'fino a quando non esiste un valore di tale che ci siano 0 e 1 sopra e sotto quel punto" (che significa Hauck-Donner l'effetto non si verificherà).β x xββxx

Dal punto di vista bayesiano, questo problema è molto semplice.

  1. Inizia la tua precedente convinzione su .β
  2. Trova la che avrà il massimo effetto sulla distribuzione posteriorex
  3. Campiona usando il valore di scelto da (2) e aggiorna il tuo posteriorex
  4. Ripetere i passaggi 2 e 3 fino a quando non viene raggiunta la precisione desiderata

La letteratura del frequentista si piegherà all'indietro per farti provare a trovare valori ragionevoli di per i quali puoi sperare di prelevare campioni ed evitare l'effetto Hauck-Donner in modo da poter iniziare a prendere campioni non ottimali ... mentre il metodo bayesiano è tutto molto semplice e tiene conto dell'incertezza nel parametro di interesse.x


2

Forse uno dei casi più semplici e comuni in cui l'approccio bayesiano è più semplice è la quantificazione dell'incertezza dei parametri.

In questa risposta, non mi riferisco all'interpretazione degli intervalli di confidenza rispetto a intervalli credibili. Per il momento, supponiamo che un utente stia bene usando entrambi i metodi.

Detto questo, nel quadro bayesiano, è semplice; è la varianza marginale del posteriore per ogni singolo parametro di interesse. Supponendo che sia possibile campionare dalla parte posteriore, quindi prelevare i campioni e calcolare le varianze. Fatto!

Nel caso Frequentist, questo è di solito semplice in alcuni casi ed è un vero dolore quando non lo è. Se abbiamo un gran numero di campioni rispetto a un piccolo numero di parametri (e chissà quanto sia grande abbastanza grande), possiamo usare la teoria MLE per ricavare CI. Tuttavia, tali criteri non sempre valgono, soprattutto per casi interessanti (ad esempio modelli di effetti misti). A volte possiamo usare il bootstrap, ma a volte non possiamo! Nei casi in cui non possiamo, può essere molto, molto difficile ricavare stime di errore e spesso richiede un po 'di intelligenza (vale a dire, la formula di Greenwood per derivare gli SE per le curve di Kaplan Meier). "Usare un po 'di intelligenza" non è sempre una ricetta affidabile!

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.