Interpretazione bayesiana e frequentista della probabilità


37

Qualcuno può dare una buona panoramica delle differenze tra l'approccio bayesiano e quello frequentista alla probabilità?

Da quello che ho capito:

L'opinione dei frequentatori è che i dati sono un campione casuale ripetibile (variabile casuale) con una frequenza / probabilità specifica (che è definita come la frequenza relativa di un evento quando il numero di prove si avvicina all'infinito). I parametri e le probabilità sottostanti rimangono costanti durante questo processo ripetibile e che la variazione è dovuta alla variabilità in Xn e non alla distribuzione di probabilità (che è fissata per un determinato evento / processo).

La visione bayesiana è che i dati sono fissi mentre la frequenza / probabilità per un certo evento può cambiare nel senso che i parametri della distribuzione cambiano. In effetti, i dati ottenuti cambiano la distribuzione precedente di un parametro che viene aggiornato per ogni set di dati.

A me sembra che l'approccio del frequentista sia più pratico / logico poiché sembra ragionevole che gli eventi abbiano una probabilità specifica e che la variazione sia nel nostro campionamento.

Inoltre, la maggior parte dell'analisi dei dati dagli studi viene solitamente eseguita utilizzando l'approccio frequentista (ovvero intervalli di confidenza, test di ipotesi con valori p ecc.) Poiché è facilmente comprensibile.

Mi stavo solo chiedendo se qualcuno potesse darmi un breve riassunto della loro interpretazione dell'approccio bayesiano vs frequentista inclusi gli equivalenti statistici bayesiani del valore p frequentista e dell'intervallo di confidenza. Inoltre, sono apprezzati esempi specifici in cui 1 metodo sarebbe preferibile all'altro.


1
In alcuni luoghi verrai attaccato da una folla inferocita se dici che l'approccio frequentista all'inferenza statistica è più pratico. (OK, forse c'è qualche iperbole in quella frase.) Non sono d'accordo sul fatto che gli intervalli di confidenza sono più facili da capire rispetto agli intervalli di probabilità posteriori. (In ogni caso, vedere la mia risposta qui sotto Penso che arriva dritto al nocciolo della questione, anche se non c'è la matematica al di là sapendo cosa. è.)1/2
Michael Hardy

@DilipSarwate ay, lo terrò a mente per la prossima volta. ma sembra che stavolta ho ricevuto alcune buone risposte, quindi forse proverò a finire qui: D
BYS2

Risposte:


27

Nell'approccio frequentista , si afferma che l'unico senso in cui le probabilità hanno un significato è come il valore limite del numero di successi in una sequenza di prove, cioè come

p=limnkn

dove è il numero di successi e n è il numero di prove. In particolare, non ha senso associare una distribuzione di probabilità a un parametro .kn

Ad esempio, considera i campioni dalla distribuzione di Bernoulli con il parametro p (ovvero hanno valore 1 con probabilità pX1,,Xnpp e 0 con probabilità ). Siamo in grado di definire il tasso di successo del campione di essere1p

p^=X1++Xnn

e parlare la distribuzione di p condizione che il valore di p , ma non ha senso per invertire la domanda e iniziare a parlare della distribuzione di probabilità di pp^pp condizione che il valore osservato di p . In particolare, ciò significa che quando calcoliamo un intervallo di confidenza, interpretiamo le estremità dell'intervallo di confidenza come variabili casuali e parliamo di "la probabilità che l'intervallo includa il parametro vero", piuttosto che "la probabilità che il parametro sia all'interno dell'intervallo di confidenza ".p^

Nell'approccio bayesiano , interpretiamo le distribuzioni di probabilità come una quantificazione della nostra incertezza sul mondo. In particolare, ciò significa che ora possiamo parlare in modo significativo delle distribuzioni di probabilità dei parametri, poiché anche se il parametro è fisso, la nostra conoscenza del suo vero valore potrebbe essere limitata. Nel precedente esempio, siamo in grado di invertire la distribuzione di probabilità utilizzando la legge di Bayes, per daref(p^p)

f(pp^)posterior=f(p^p)f(p^)likelihood ratiof(p)prior

Il problema è che dobbiamo introdurre la distribuzione precedente nella nostra analisi - questo riflette la nostra convinzione sul valore di prima di vedere i valori effettivi di X i . Il ruolo del priore è spesso criticato nell'approccio frequentista, in quanto si sostiene che introduce soggettività nel mondo altrimenti austero e oggettivo della probabilità.pXi

Nell'approccio bayesiano non si parla più di intervalli di confidenza, ma invece di intervalli credibili, che hanno un'interpretazione più naturale - dato un intervallo credibile del 95%, possiamo assegnare una probabilità del 95% che il parametro sia all'interno dell'intervallo.


6
D'altra parte, una critica all'approccio del frequentista è che non quadrano con il modo in cui le persone pensano alla probabilità. Considera come le persone parlano della "probabilità" di eventi unici come l'estinzione dei dinosauri o della "probabilità" di "certezze" come il sorgere del sole domani ...

14
Potrebbe anche essere utile ricordare che il divario tra gli approcci frequentista e bayesiano non è altrettanto grande a livello pratico: qualsiasi metodo frequentista che produce risultati utili e coerenti può essere generalmente interpretato bayesiano e viceversa . In particolare, la rifusione di un calcolo frequentista in termini bayesiani produce in genere una regola per il calcolo del posteriore dato un certo specifico precedente . Ci si può quindi chiedere "Bene, è davvero ragionevole prima di assumerlo?"
Ilmari Karonen,

Grazie per questa risposta, è in linea con la mia comprensione generale. Tuttavia, mi chiedevo se potessi chiarire una cosa, come troveresti la probabilità del tasso di successo dei dati / campione (f (p-hat)) nella formula della legge di Baye? Ho letto alcuni esempi funzionanti e generalmente capisco come derivare f (p-hat | p) e il precedente f (p) ma f (p-hat) mi sfugge finora. Se avessi dei collegamenti ad alcune risorse, sarebbe fantastico: D. Grazie!
BYS2,

@IlmariKaronen. Ok, allora stai dicendo che se avessi uno studio che ha prodotto determinati risultati espressi come intervalli di confidenza, potrei rifondere i dati e fare invece un'analisi bayesiana? e i risultati sarebbero più o meno coerenti?
BYS2,

Quello che dice @Karonen non è del tutto esatto. Le due tecniche più frequenti del frequentatore sono le stime puntuali (di solito la stima della massima verosimiglianza) e i test di ipotesi, e nessuno dei due può davvero dare un'interpretazione bayesiana naturale.
Jules il

20

Hai ragione sulla tua interpretazione della probabilità frequentista: la casualità in questa configurazione è semplicemente dovuta a campionamenti incompleti. Dal punto di vista bayesiano le probabilità sono "soggettive", in quanto riflettono l'incertezza di un agente sul mondo. Non è del tutto corretto affermare che i parametri delle distribuzioni "cambiano". Poiché non disponiamo di informazioni complete sui parametri, la nostra incertezza su di essi cambia man mano che raccogliamo più informazioni.

Entrambe le interpretazioni sono utili nelle applicazioni e ciò che è più utile dipende dalla situazione. Potresti dare un'occhiata a Andrew Gelman's blog di per idee sulle applicazioni bayesiane. In molte situazioni ciò che i bayesiani chiamano "priori" i frequentatori chiamano "regolarizzazione", e quindi (dal mio punto di vista) l'eccitazione può lasciare la stanza piuttosto rapidamente. In effetti, secondo il teorema di Bernstein-von Mises, l'inferenza bayesiana e frequentista sono in realtà asintoticamente equivalenti sotto ipotesi piuttosto deboli (anche se in particolare il teorema fallisce per le distribuzioni a dimensione infinita). Puoi trovare una miriade di riferimenti su questo qui .

Dal momento che hai chiesto interpretazioni: penso che il punto di vista del frequentista abbia molto senso quando si modellano esperimenti scientifici come è stato progettato per fare. Per alcune applicazioni di machine learning o per modellare il ragionamento induttivo (o l'apprendimento), la probabilità bayesiana ha più senso per me. Esistono molte situazioni in cui la modellazione di un evento con una probabilità "vera" fissa sembra non plausibile.

Per un esempio di giocattolo che ritorna a Laplace , considera la probabilità che il sole sorga domani. Dal punto di vista del frequentista, dobbiamo definire qualcosa come infiniti universi per definire la probabilità. Come bayesiani, esiste un solo universo (o almeno non ce ne devono essere molti). La nostra incertezza sul sorgere del sole è soffocata dalla nostra, molto, molto forte convinzione che domani sorgerà di nuovo.


17

L'interpretazione bayesiana della probabilità è un'interpretazione del grado di credenza.

1/2

1/2


2
Probabilmente non c'è posto migliore per meditare sui limiti dell'approccio frequentista più ristretto rispetto alla generalità dell'approccio bayesiano (estensione della logica) rispetto al classico documento di RT Cox.
scritto il

2
Cox ha anche scritto un libro su questo, intitolato Algebra of Probable Inference , pubblicato da Johns Hopkins. @gwr
Michael Hardy,

1
Ian Hacking lo ha detto bene nel suo libro "An Introduction to Probability and Inductive Logic". Ha detto: "Il bayesiano è in grado di associare le probabilità personali, o gradi di credenza, a proposizioni individuali. Il dogmatista di frequenza su linea dura pensa che le probabilità possano essere collegate solo a una serie di eventi".
Buttons840

9

Chris dà una bella spiegazione semplicistica che differenzia correttamente i due approcci alla probabilità. Ma la teoria della probabilità frequentista va ben oltre la semplice considerazione della percentuale di successi a lungo raggio. Consideriamo anche i dati campionati a caso da una distribuzione e stimiamo i parametri della distribuzione come la media e la varianza prendendo alcuni tipi di medie dei dati (ad es. Per la media è la media aritmetica delle osservazioni. La teoria del frequentista associa una probabilità con la stima che si chiama distribuzione campionaria.

Nella teoria delle frequenze siamo in grado di mostrare per parametri come la media che sono presi calcolando la media dai campioni che la stima converge al parametro vero. La distribuzione di campionamento viene utilizzata per descrivere quanto è vicina la stima al parametro per qualsiasi dimensione fissa del campione n. La chiusura è definita da una misura di precisione (ad es. Errore quadratico medio).

A Chris sottolinea per qualsiasi parametro come la media che il bayesiano attribuisce una distribuzione di probabilità precedente su di esso. Quindi, dati i dati, la regola di Bayes viene utilizzata per calcolare una distribuzione posteriore per il parametro. Per il bayesiano tutta l'inferenza sul parametro si basa su questa distribuzione posteriore.

I frequentatori costruiscono intervalli di confidenza che sono intervalli di valori plausibili per il parametro. La loro costruzione si basa sulla probabilità del frequentatore che se il processo utilizzato per generare l'intervallo fosse ripetuto più volte per campioni indipendenti, la proporzione di intervalli che includerebbe effettivamente il valore reale del parametro sarebbe almeno un livello di confidenza prespecificato (ad es. 95% ).

I bayesiani usano la distribuzione a posteriori per il parametro per costruire regioni credibili. Queste sono semplicemente regioni nello spazio dei parametri su cui è integrata la distribuzione posteriore per ottenere una probabilità prespecificata (ad es. 0,95). Le regioni credibili sono interpretate dai bayesiani come regioni che hanno un'alta probabilità (ad es. Lo 0,95 prespecificato) di includere il valore reale del parametro.


1
Le regioni credibili sono interpretate dai bayesiani come regioni che hanno un'alta probabilità (ad es. Lo 0,95 prespecificato) di includere il valore reale del parametro . Come è possibile se il parametro è una variabile casuale?

@Procrastinator Okay forse preferiresti che io dicessi che copre un'alta percentuale prespecificata della distribuzione dei parametri. Ma se X è una variabile casuale con una distribuzione f e costruiamo una regione credibile per essa, allora la regione rappresenta la probabilità che una realizzazione della variabile casuale si trovi nella regione.
Michael R. Chernick,

Sono d'accordo con questa spiegazione. È importante chiarire che una realizzazione della variabile casuale non è il vero valore del parametro.

@Procrastinator è un punto interessante che sollevi. Tuttavia, la mia comprensione della probabilità bayesiana è che molti bayesiani concordano con gli statistici classici che esiste un unico VERO valore del parametro in questione (è fisso ma sconosciuto). È l' incertezza su questo parametro che viene distribuita a causa del nostro stato di conoscenza imperfetto. Quindi se ci pensate in questo modo, allora la dichiarazione iniziale di Michael Chernick è valida, non credi?
BYS2,

2
θ0=1(1,100)

2

Da un punto di vista del "mondo reale", trovo una grande differenza tra una "soluzione" frequentista e una classica o bayesiana che si applica ad almeno tre scenari principali. La differenza nella selezione di una metodologia dipende dal fatto che sia necessaria una soluzione che è influenzata dalla probabilità della popolazione o che è influenzata dalla probabilità individuale. Esempi di seguito:

  1. Se esiste una probabilità nota del 5% che i maschi oltre i 40 anni muoiano in un determinato anno e richiedano pagamenti di assicurazioni sulla vita, una compagnia assicurativa può utilizzare la percentuale di POPOLAZIONE del 5% per stimare i suoi costi, ma per dire che ogni singolo maschio sopra i 40 ha solo una probabilità del 5% di morire ... non ha senso ... Perché il 5% ha una probabilità di morire del 100%, che è un approccio frequentista. A livello individuale l'evento si verifica (probabilità del 100%) oppure no (probabilità dello 0%) Tuttavia, sulla base di queste informazioni limitate, non è possibile prevedere gli individui che hanno una probabilità del 100% di morire, e il 5 % di probabilità "mediata" della popolazione è inutile a livello individuale.

  2. L'argomento di cui sopra si applica anche agli incendi negli edifici, motivo per cui gli irrigatori sono necessari in tutti gli edifici di una popolazione.

  3. Entrambi i suddetti argomenti si applicano ugualmente anche ai calzoni, ai danni o agli "hack" dei sistemi di informazione. Le percentuali di popolazione sono inutili, quindi tutti i sistemi devono essere salvaguardati.


2
Non riconosco un approccio frequentista in nessuno di questi tre casi. Sembrano tutti dipendere da un concetto retrospettivo - e quindi inutile - di probabilità che non viene utilizzato nei modelli classici. Ad esempio, l'affermazione secondo cui "l'evento si verifica ... o no" è banalmente vera ma non correlata alle probabilità.
whuber

0

La scelta dell'interpretazione dipende dalla domanda. Se desideri conoscere le probabilità in un gioco d'azzardo, l'interpretazione classica risolverà il tuo problema, ma i dati statistici sono inutili poiché i dadi onesti non hanno memoria.

Se si desidera prevedere un evento futuro in base all'esperienza passata, l'interpretazione da frequentista è corretta e sufficiente.

Se non sai se si è verificato un evento passato e desideri valutare la probabilità che ciò si sia verificato, devi prendere le tue convinzioni precedenti, ovvero ciò che già sai sulla possibilità che si verifichi l'evento e aggiornare la tua convinzione quando acquisisci nuovi dati.

Poiché la domanda riguarda un certo grado di credenza e ogni persona può avere un'idea diversa sui priori, l'interpretazione è necessariamente soggettiva, alias bayesiano.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.