Dov'è andato il dibattito frequentista-bayesiano?


59

Il mondo delle statistiche era diviso tra frequentisti e bayesiani. In questi giorni sembra che tutti facciano entrambe le cose. Come può essere? Se i diversi approcci sono adatti a diversi problemi, perché i padri fondatori della statistica non l'hanno visto? In alternativa, il dibattito è stato vinto dai frequentatori e i veri bayesiani soggettivi sono passati alla teoria delle decisioni?


13
Ho fatto questo CW con la premessa che è improbabile che ci sia una risposta autorevole o migliore. (Sentiti libero di persuadere una qualsiasi delle mod altrimenti se non sei d'accordo!) Uno potrebbe discutere per aver chiuso la domanda sulla base del fatto che è potenzialmente controverso, ma (IMHO) è in argomento e interessante. Tuttavia, eventuali risposte controverse, polemiche o non supportate, qualora dovessero apparire, verranno eliminate senza ulteriori spiegazioni.
whuber

Risposte:


58

In realtà sono leggermente in disaccordo con la premessa. Tutti sono bayesiani, se hanno davvero una distribuzione di probabilità consegnata loro come un precedente. Il problema si presenta quando non lo fanno e penso che ci sia ancora una divisione abbastanza ampia su questo argomento.

Detto questo, però, concordo sul fatto che sempre più persone sono meno propense a combattere guerre sante e continuano a fare ciò che sembra appropriato in una determinata situazione.

Direi che, con l'avanzare della professione, entrambe le parti si sono rese conto che c'erano dei meriti negli approcci dell'altra parte. I bayesiani hanno capito che la valutazione di come le procedure bayesiane avrebbero funzionato più volte (ad esempio, questo intervallo credibile al 95% (CI) in realtà contiene il vero parametro circa il 95% delle volte?) Ha richiesto una visione del frequentatore. Senza questo, non esiste una calibrazione di quel "95%" su qualsiasi numero del mondo reale. Robustezza? Costruzione di modelli tramite adattamento iterativo ecc.? Idee emerse nel mondo frequentista e adattate dai bayesiani a partire dalla fine degli anni '80 o giù di lì. I frequentatori hanno capito che la regolarizzazione era buona e la usano abbastanza comunemente in questi giorni - e i priori bayesiani possono essere facilmente interpretati come regolarizzazione. Modellazione non parametrica tramite spline cubiche con funzione di penalità? La tua pena è il mio prior! Ora possiamo andare tutti d'accordo.

L'altra influenza maggiore, credo, è l'incredibile miglioramento della disponibilità di software di alta qualità che ti consentirà di eseguire rapidamente l'analisi. Questo si divide in due parti: algoritmi, ad esempio, campionamento di Gibbs e Metropolis-Hastings, e il software stesso, R, SAS, ... Potrei essere un bayesiano più puro se dovessi scrivere tutto il mio codice in C (semplicemente non avrei il tempo di provare nient'altro), ma com'è, userò gam nel pacchetto mgcv in R ogni volta che il mio modello sembra che possa adattarlo a quel framework senza troppe pressioni, e sono uno statistico migliore per questo. Familiarità con i metodi del tuo avversario e rendendoti conto di quanto sforzo può risparmiare / migliore qualità che può fornire per usarli in alcune situazioni, anche se potrebbero non adattarsi al 100% al tuo framework predefinito per pensare a un problema,


5
@Dikran: sono d'accordo, con l'avvertenza che avrei cavillato personalmente con la parola scelta dell'avversario . :)
cardinale

2
@cardinale Non lo so, sciogliere i colleghi può essere divertente (a patto che entrambi lo sappiate meglio di quello che intendiamo davvero!; o)
Dikran Marsupial

3
@Dikran - Grazie per la comprensione! Non pensavo nemmeno che "avversario" fosse esattamente la parola giusta, ma l'ho messa comunque dentro solo per divertimento, e in parte perché non riuscivo a pensare a una migliore che conservasse ancora un certo senso di opposizione.
jbowman

5
@jbowman: Nota che le statistiche bayesiane a-la Good, Lindley o DeFinetti, significano che il priore è soggettivo / mentale e non oggettivo / fisico. Per questo motivo, non sarei d'accordo con: "... Tutti sono bayesiani". Questo è il motivo per cui Robbins ha dovuto usare il termine "Empirical Bayes" quando ha introdotto l'idea "romanzo" di un precedente frequentatore. Concordo tuttavia sul fatto che oggi, utilizzando uno schema di campionamento multilivello, avendo quindi un precedente frequentista, basterebbe a qualificarsi come "statistica bayesiana".
JohnRos

2
@JohnRos - quello a cui stavo pensando era più il classico "qual è la probabilità che tu abbia la tubercolosi dato che sei arrivato positivo al test TB?" situazione. (Presumo che) pochi statistici frequentisti si oppongono all'uso di qualsiasi tasso di TB basale appropriato come probabilità precedente e aggiornandolo con la probabilità del test. Naturalmente, avrebbero comunque obiettato all'idea che il loro precedente fosse soggettivo, e potevo vedere una linea di ragionamento dall'altra parte che affermerebbe che è soggettivo nonostante i dati dietro di esso, quindi punto preso (+1).
jbowman

35

Questa è una difficile domanda a cui rispondere. Il numero di persone che fanno davvero entrambe le cose è ancora molto limitato. I bayesiani hard core disprezzano gli utenti delle statistiche mainstream per il loro uso di valori , una statistica senza senso, internamente incoerente per i bayesiani; e gli statistici mainstream semplicemente non conoscono i metodi bayesiani abbastanza bene da commentarli. Alla luce di ciò, vedrete molte critiche alla prova di significatività dell'ipotesi nulla nella letteratura bayesiana (che spazia fino a biologia quasi pura o riviste di psicologia pura), con scarsa o nessuna risposta da parte dei mainstreamer.p

Ci sono manifestazioni contrastanti su "chi ha vinto il dibattito" nella professione statistica. Da un lato, la composizione di un dipartimento statistico medio è che nella maggior parte dei luoghi troverai 10-15 mainstreamer rispetto a 1-2 bayesiani, anche se alcuni dipartimenti sono puramente bayesiani, senza affatto mainstreamer, tranne probabilmente per le posizioni di consulenza (Harvard, Duke, Carnegie Mellon, British Columbia, Montreal in Nord America; ho meno familiarità con la scena europea). D'altra parte, vedrai che su riviste come JASA o JRSS, probabilmente il 25-30% dei giornali è bayesiano. In un certo senso, il rinascimento bayesiano potrebbe essere qualcosa di simile all'esplosione dei documenti ANOVA negli anni '50: allora la gente pensava che praticamente qualsiasi problema di statistica potesse essere definito come un problema ANOVA; proprio adesso,

La mia sensazione è che le aree applicate non si preoccupino di capire i dettagli filosofici e vanno semplicemente con qualsiasi cosa sia più facile con cui lavorare. La metodologia bayesiana è troppo dannatamente complicata: oltre alle statistiche, devi anche imparare l'arte del calcolo (impostare il campionatore, bloccare, diagnosticare la convergenza, bla bla bla) ed essere pronto a difendere i tuoi priori (se dovessi usare priori oggettivi, o dovresti usare priori informativi se il campo si è praticamente stabilizzato sulla velocità della luce di 3e8 m / s, o anche se la scelta del precedente influisce sul fatto che il tuo posteriore sarà corretto o meno). Quindi nella maggior parte delle applicazioni mediche o psicologiche o economiche, vedrai gli approcci tradizionali negli articoli scritti da ricercatori sostanziali,

Un'area in cui, a mio avviso, la struttura bayesiana è ancora insufficiente è la diagnostica dei modelli - e questa è un'area importante per i professionisti. Nel mondo bayesiano, per diagnosticare un modello, è necessario crearne uno più complicato e scegliere quale si adatta meglio al fattore bayesiano o al BIC. Quindi, se non ti piace il presupposto della normalità per la tua regressione lineare, puoi costruire una regressione con errori di Student e lasciare che i dati generino una stima dei gradi di libertà, oppure puoi diventare tutto fantasioso e avere un processo Dirichlet per il tuo termini di errore e fare alcuni salti MH tra modelli diversi. L'approccio tradizionale sarebbe quello di costruire un diagramma QQ di residui studentizzati e rimuovere valori anomali, e questo è, ancora una volta, molto più semplice.

Ho modificato un capitolo in un libro su questo - vedi http://onlinelibrary.wiley.com/doi/10.1002/9780470583333.ch5/summary . È un documento molto archetipico, in cui ha fornito circa 80 riferimenti su questo dibattito, tutti a sostegno del punto di vista bayesiano. (Ho chiesto all'autore di estenderlo in una versione rivista, che dice molto al riguardo :)). Jim Berger di Duke, uno dei principali teorici bayesiani, tenne una serie di conferenze e scrisse un numero di articoli molto ponderati sull'argomento.


14

C'è una buona ragione per avere ancora entrambi, ed è che un buon artigiano vorrà selezionare lo strumento migliore per il compito da svolgere, e sia i metodi bayesiani che quelli frequentisti hanno applicazioni in cui sono lo strumento migliore per il lavoro.

Tuttavia, spesso viene utilizzato lo strumento sbagliato per il lavoro perché le statistiche frequentiste sono più suscettibili all'approccio del "ricettario statistico" che li rende più facili da applicare nella scienza e nell'ingegneria rispetto alle loro controparti bayesiane, anche se i metodi bayesiani forniscono una risposta più diretta a la domanda posta (che è generalmente ciò che possiamo dedurre dal particolare campione di dati che abbiamo effettivamente). Non sono molto favorevole a questo, in quanto l'approccio del "libro di cucina" porta all'utilizzo delle statistiche senza una solida comprensione di ciò che stai effettivamente facendo, motivo per cui cose come l'errore p-value emergono ancora e ancora.

Tuttavia, col passare del tempo, gli strumenti software per l'approccio bayesiano miglioreranno e saranno utilizzati più frequentemente, come giustamente dice jbowman.

Sono un bayesiano per inclinazione (mi sembra molto più sensato dell'approccio frequentista), tuttavia finisco per usare le statistiche frequentiste nei miei articoli, in parte perché avrò problemi con i revisori se uso le statistiche bayesiane in quanto sarà "non standard".

Infine (un po 'ironico; o), per citare Max Plank "Una nuova verità scientifica non trionfa convincendo i suoi avversari e facendoli vedere la luce, ma piuttosto perché i suoi avversari alla fine muoiono e cresce una nuova generazione che è familiare con esso."


10

Non credo che Frequentisti e Bayesiani diano risposte diverse alle stesse domande. Penso che siano pronti a rispondere a diverse domande . Pertanto, non penso che abbia senso parlare molto della vittoria di una squadra o persino del compromesso.

Considera tutte le domande che potremmo desiderare di porre. Molte sono solo domande impossibili ("Qual è il vero valore di ?"). È più utile considerare il sottoinsieme di queste domande a cui è possibile rispondere in base a diversi presupposti. Il sottoinsieme più grande sono le domande a cui è possibile rispondere in cui ti permetti di usare i priori. Chiama questo set BF. C'è un sottoinsieme di BF, che è l'insieme di domande che non dipendono da alcun precedente. Chiamare questo secondo sottoinsieme F. F è un sottoinsieme di BF. Definisci B = BF \ B.θ

Tuttavia, non possiamo scegliere a quali domande rispondere. Per fare inferenze utili sul mondo, a volte dobbiamo rispondere a domande che si trovano in B e ciò significa usare un precedente.

Idealmente, dato uno stimatore, farebbe un'analisi approfondita. Potresti usare un precedente, ma sarebbe anche bello se potessi dimostrare cose belle sul tuo stimatore che non dipendono da alcun precedente. Ciò non significa che puoi abbandonare il precedente, forse le domande davvero interessanti richiedono un precedente.

Tutti concordano su come rispondere alle domande in F. La preoccupazione è se le domande veramente "interessanti" sono in F o in B?

Un esempio: un paziente entra dal medico ed è sano (H) o malato (S). Eseguiamo un test che restituirà positivo (+) o negativo (-). Il test non fornisce mai falsi negativi - ovvero . Ma a volte darà falsi positivi -P(|S)=0P(+|H)=0.05

Abbiamo un pezzo di carta e la macchina di prova scriverà + o - su un lato della carta. Immagina, se vuoi, che abbiamo un oracolo che in qualche modo conosce la verità, e questo oracolo scrive il vero stato, H o S, sull'altro lato della carta prima di metterla in una busta.

Come medico statisticamente addestrato, cosa possiamo dire della carta nell'envolope prima di aprire la carta? Le seguenti affermazioni possono essere fatte (queste sono in F sopra):

  • Se S su un lato della carta, l'altro lato sarà +. P(+|S)=1
  • Se H, allora l'altro lato sarà + con una probabilità del 5%, - con una probabilità del 95%. P(|H)=0.95
  • (riassumendo gli ultimi due punti) La probabilità che le due parti corrispondano è almeno del 95%. P((,S)(+,H))0.95

Non sappiamo cosa sia o . Non possiamo davvero rispondere senza una sorta di precedente per . Ma possiamo fare dichiarazioni sulla somma di queste due probabilità.P((,S))P((+,H))P(S)

Questo è quanto possiamo andare lontano. Prima di aprire la busta , possiamo fare affermazioni molto positive sull'accuratezza del test. Esiste (almeno) il 95% di probabilità che il risultato del test corrisponda alla verità.

Ma cosa succede quando apriamo effettivamente la carta? Dato che il risultato del test è positivo (o negativo), cosa possiamo dire se sono sani o malati?

Se il test è positivo (+), non c'è nulla che possiamo dire. Forse sono sani e forse no. A seconda dell'attuale prevalenza della malattia ( ) potrebbe essere il caso che la maggior parte dei pazienti che risultano positivi siano sani o che la maggior parte sia malata. Non possiamo porre limiti a questo, senza prima permetterci di mettere dei limiti su .P(S)P(S)

In questo semplice esempio, è chiaro che chiunque abbia un risultato negativo del test è sano. Non ci sono falsi negativi, e quindi ogni statista manderà felicemente quel paziente a casa. Pertanto, non ha senso pagare il parere di uno statistico a meno che il risultato del test non sia stato positivo .

I tre punti elenco sopra riportati sono corretti e abbastanza semplici. Ma sono anche inutili! La domanda davvero interessante, in questo modello certamente inventato, è:

P(S|+)

e questo non può essere risposto senza (cioè un precedente, o almeno alcuni limiti sul precedente)P(S)

Non nego che questo sia forse un modello semplificato, ma dimostra che se vogliamo fare dichiarazioni utili sulla salute di quei pazienti, dobbiamo iniziare con una precedente convinzione sulla loro salute.


2
Come stai conciliando l'affermazione "Se , allora l'altra parte sarà con una probabilità del , con una probabilità del . " con la tua precedente affermazione che nel paragrafo che inizia "Un esempio:"? H+5%95%P(|S)=0.95P(|S)=0
Dilip Sarwate,

1
Errore di battitura. Grazie per aver scoperto @DilipSarwate. Volevo dire , nonP(|H)=0.95P(|S)=0.95
Aaron McDaid

2
Nota che possiamo essere più precisi di quanto affermi senza conoscere e dire che un test aumenta le probabilità di essere malato rispetto a essere in salute di un fattore . Tuttavia, in termini di processo decisionale (ad es. Trattare o non trattare), abbiamo bisogno di (e di una funzione di perdita). P(S)+20P(S)
Probislogic

1
Sarebbe giusto dire se è stimato da precedenti sondaggi della popolazione (rispetto a un'ipotesi istruita), quindi il lato frequentista delle statistiche diventa importante, specialmente se i ricercatori vogliono stimare la precisione di ? P(S)P(S)
RobertF,

6

Come vedrai, c'è un bel po 'di dibattito frequentista-bayesiano in corso. In effetti, penso che sia più caldo che mai e meno dogmatico. Potresti essere interessato al mio blog: http://errorstatistics.com


2
Conosco il tuo lavoro attraverso gli scritti di Shalizi e Gelman. Seguirò definitivamente il blog. Eppure mi chiedo, le "Bayes" di Gelman sono le stesse delle "Bayes" di
DeFinetti

1

Molte persone (al di fuori degli esperti specializzati) che pensano di essere frequentatrici sono in realtà bayesiane. Questo rende il dibattito un po 'inutile. Penso che il bayesianesimo abbia vinto, ma che ci sono ancora molti bayesiani che pensano di essere frequentatori. Ci sono alcune persone che pensano di non usare i priori e quindi pensano di essere frequentatrici. Questa è una logica pericolosa. Non si tratta tanto di priori (priori uniformi o non uniformi), la vera differenza è più sottile.

(Non sono formalmente nel dipartimento di statistica; il mio background è la matematica e l'informatica. Sto scrivendo a causa delle difficoltà che ho provato a discutere di questo "dibattito" con altri non statistici, e anche con qualche inizio di carriera statistici.)

Il MLE è in realtà un metodo bayesiano. Alcune persone diranno "Sono un frequentatore perché utilizzo l'MLE per stimare i miei parametri". L'ho visto nella letteratura peer-reviewed. Questa è una sciocchezza e si basa su questo mito (non detto, ma implicito) secondo cui un frequentista è qualcuno che usa un precedente uniforme anziché un precedente non uniforme).

Considera di estrarre un singolo numero da una distribuzione normale con media nota, e varianza sconosciuta. Chiama questa varianza .μ=0θ

XN(μ=0,σ2=θ)

Ora considera la funzione di verosimiglianza. Questa funzione ha due parametri, e e restituisce la probabilità, data , di .xθθx

f(x,θ)=Pσ2=θ(X=x)=12πθex22θ

Puoi immaginare di tracciare questo in una mappa di calore, con sull'asse xe sull'asse y e usando il colore (o l'asse z). Ecco la trama, con linee di contorno e colori.xθ

La mappa del calore

Innanzitutto, alcune osservazioni. Se correggi su un singolo valore di , puoi prendere la porzione orizzontale corrispondente attraverso la mappa di calore. Questa sezione ti darà il pdf per quel valore di . Ovviamente, l'area sotto la curva in quella sezione sarà 1. D'altra parte, se si fissa su un singolo valore di , quindi si osserva la sezione verticale corrispondente , allora non esiste tale garanzia sull'area sotto la curva .θθx

Questa distinzione tra sezioni orizzontali e verticali è cruciale e ho scoperto che questa analogia mi ha aiutato a comprendere l'approccio frequentista alla distorsione .

Un bayesiano è qualcuno che dice

Per questo valore di x, quali valori di danno un valore 'abbastanza alto' di ?.θf(x,θ)

In alternativa, un bayesiano potrebbe includere un precedente, , ma ne stanno ancora parlandog(θ)

per questo valore di x, quali valori di danno un valore abbastanza alto di ?θf(x,θ)g(θ)

Quindi un bayesiano corregge x e osserva la porzione verticale corrispondente in quel diagramma di contorno (o nel diagramma variante che incorpora il precedente). In questa sezione, l'area sotto la curva non deve necessariamente essere 1 (come ho detto prima). Un intervallo credibile bayesiano del 95% (CI) è l'intervallo che contiene il 95% dell'area disponibile. Ad esempio, se l'area è 2, l'area sotto il CI bayesiano deve essere 1.9.

D'altra parte, un frequentatore ignorerà x e prima considererà il fixing e chiederà:θ

Per questo , quali valori di x appariranno più spesso?θ

In questo esempio, con , una risposta a questa domanda frequente è: "Per un dato , il 95% della apparirà tra e . "N(μ=0,σ2=θ)θx3θ+3θ

Quindi un frequentatore è più interessato alle linee orizzontali corrispondenti ai valori fissi di .θ

Questo non è l'unico modo per costruire il CI frequentista, non è nemmeno buono (stretto), ma sopporta per un momento.

Il modo migliore per interpretare la parola "intervallo" non è come un intervallo su una linea 1-d, ma pensarlo come un'area sul piano 2-d sopra. Un 'intervallo' è un sottoinsieme del piano 2-d, non di alcuna linea 1-d. Se qualcuno propone un tale "intervallo", allora dobbiamo verificare se l '"intervallo" è valido a un livello di confidenza / credibilità del 95%.

Un frequentatore verificherà la validità di questo "intervallo" considerando ciascuna fetta orizzontale a sua volta e osservando l'area sotto la curva. Come ho detto prima, l'area sotto questa curva sarà sempre una. Il requisito fondamentale è che l'area all'interno dell '"intervallo" sia almeno 0,95.

Un bayesiano verificherà la validità osservando invece le sezioni verticali. Ancora una volta, l'area sotto la curva verrà confrontata con la sottozona che è sotto l'intervallo. Se quest'ultimo è almeno il 95% del primo, l'intervallo è un intervallo credibile bayesiano valido al 95%.

Ora che sappiamo come verificare se un determinato intervallo è "valido", la domanda è come scegliere l'opzione migliore tra le opzioni valide. Questa può essere un'arte nera, ma generalmente vuoi l'intervallo più stretto. Entrambi gli approcci tendono a concordare qui: le sezioni verticali vengono prese in considerazione e l'obiettivo è rendere l'intervallo il più stretto possibile all'interno di ciascuna sezione verticale.

Non ho tentato di definire l'intervallo di confidenza frequentista più stretto possibile nell'esempio sopra. Vedi i commenti di @cardinal di seguito per esempi di intervalli più ristretti. Il mio obiettivo non è quello di trovare gli intervalli migliori, ma di enfatizzare la differenza tra le sezioni orizzontali e verticali nel determinare la validità. Un intervallo che soddisfa le condizioni di un intervallo di confidenza del frequentatore del 95% di solito non soddisfa le condizioni di un intervallo credibile bayesiano del 95% e viceversa.

Entrambi gli approcci desiderano intervalli ristretti, cioè quando consideriamo una sezione verticale vogliamo rendere l'intervallo (1-d) in quella sezione per essere il più stretto possibile. La differenza sta nel modo in cui viene applicato il 95%: un frequentatore esaminerà solo gli intervalli proposti in cui il 95% dell'area di ogni fetta orizzontale è al di sotto dell'intervallo, mentre un bayesiano insisterà sul fatto che ogni fetta verticale sia tale che il 95% della sua area è sotto l'intervallo.

Molti non statistici non lo capiscono e si concentrano solo sulle sezioni verticali; questo li rende bayesiani anche se la pensano diversamente.


3
(-1) Credo che questo post mostri alcuni fraintendimenti fondamentali su diversi punti. È difficile sapere anche da dove cominciare.
cardinale il

1
Parliamo di uno che sembra formare la maggior parte di questo post. Nell'esempio fornito, e quindi è una quantità fondamentale basata sulla statistica completa completa per . Un CI frequentista è uno che soddisfa uniforme in e per tutte le possibili realizzazioni di . A causa delle proprietà summenzionate di , è il candidato naturale su cui basare l'IC. (cont.)X2/θχ12θ(θ^,θ^u)θ X X 2 / θP(θ(θ^,θ^u))=1α θXX2/θ
cardinale il

1
(seguito) Una scelta è dove indica il esimo quantile della distribuzione . Quasi tutti i frequentatori utilizzerebbero invece l' intervallo altrettanto valido poiché è infinitamente più stretto e facile da costruire. Tuttavia , quest'ultimo intervallo non è nemmeno il più breve, che può essere trovato con una semplice procedura numerica. In breve , la premessa principale dell'argomento nella risposta sembra mancare completamente il punto. q b b[X2/q1α,)qbb [ X 2 / q 1 - α / 2 , X 2 / q α / 2 ]χ12[X2/q1α/2,X2/qα/2]
cardinale il

Ciao @cardinale, capisco i tuoi punti nei tuoi ultimi due commenti. In effetti, penso che i tuoi punti siano coerenti con quello che ho detto :-) OK, Esistono diversi modi per costruire intervalli di confidenza da parte del frequentatore. Accetti il ​​metodo che ho descritto è valido. E tu (ragionevolmente) fai notare che il mio metodo non è il più stretto. Penso che il tuo primo commento non sia stato molto utile.
Aaron McDaid il

2
@ cardinale, ripensandoci, accetto che la fine della mia risposta non sia utile ed è sostanzialmente sbagliata, lo sistemerò. Distrae dal mio punto principale, ovvero che molte persone al di fuori del dipartimento delle statistiche che hanno una forte opinione su questo non apprezzano la differenza fondamentale tra i due approcci: entrambi gli approcci sembrano avere una buona area sotto la curva (almeno il 95% ), ma la differenza è se prendere una sezione orizzontale (frequentista) o verticale (bayesiana) attraverso la mappa di calore. Sono proprio qui, e vale la pena sottolineare questo punto qui?
Aaron McDaid il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.