Perché qualcuno dovrebbe usare un approccio bayesiano con un precedente improprio "non informativo" invece dell'approccio classico?


44

Se l'interesse sta semplicemente stimando i parametri di un modello (stima puntuale e / o intervallo) e le informazioni precedenti non sono affidabili, deboli (so che questo è un po 'vago ma sto cercando di stabilire uno scenario in cui la scelta di un la priorità è difficile) ... Perché qualcuno dovrebbe scegliere di usare l'approccio bayesiano con priori impropri "non informativi" invece dell'approccio classico?


1
Grazie a tutti per pensieri così interessanti su questa parte controversa delle statistiche bayesiane. Ho letto e confrontato i tuoi punti. Vi sono interessanti argomenti che ne confermano l'uso in termini di regole formali, praticità e interpretazione. Selezionerò una risposta ad un certo punto, ma temo che questo sarà un compito molto difficile.

Risposte:


24

Due motivi per cui uno potrebbe seguire un approccio bayesiano anche se si utilizzano priori non informativi:

  • Problemi di convergenza. Ci sono alcune distribuzioni (binomiale, binomiale negativo e gamma generalizzata sono quelle con cui ho più familiarità) che hanno problemi di convergenza per un periodo non banale di tempo. È possibile utilizzare un framework "bayesiano", e in particolare i metodi della catena Markov Monte Carlo (MCMC), per affrontare essenzialmente questi problemi di convergenza con il potere computazionale e ottenere stime decenti da essi.
  • Interpretazione. Una stima bayesiana + intervallo credibile del 95% ha un'interpretazione più intuitiva di una stima frequentista + intervallo di confidenza del 95%, quindi alcuni potrebbero preferire semplicemente riportarli.

3
MCMC non è proprio il metodo bayesiano. Potresti semplicemente trarre stime dalla tua probabilità target (non posteriore) se la convergenza è il problema.
scottyaz,

16

Sebbene i risultati saranno molto simili, le loro interpretazioni differiscono.

Gli intervalli di confidenza implicano l'idea di ripetere un esperimento più volte e di riuscire a catturare il vero parametro il 95% delle volte. Ma non puoi dire di avere il 95% di possibilità di catturarlo.

Gli intervalli credibili (bayesiano), d'altra parte, consentono di dire che esiste una "probabilità" del 95% che l'intervallo acquisisca il valore reale. Aggiornamento: un modo più bayesiano per dirlo sarebbe che potresti essere sicuro al 95% dei tuoi risultati.

P(Data|Hypothesis)P(Hypothesis|Data)


1
Potrei essere confuso qui, ma come si inserisce "il vero valore" in un quadro bayesiano? Forse ti riferisci alla modalità posteriore (o media, o ... ecc.)?
Macro

Mi riferisco a qualsiasi parametro (valore della popolazione) che stai stimando con la tua statistica campione, sia essa una media, una differenza media, una pendenza di regressione ... In breve, cosa stai cercando.
Dominic Comtois,

1
Sì, ma il "valore reale" non indica che il parametro è una costante (ovvero la sua distribuzione è una massa in punti)? L'intero concetto di guardare la distribuzione posteriore sembra non essere d'accordo con il pensare ai parametri in quel modo.
Macro

9

±2σ

Fornire una distribuzione posteriore completa dei parametri è un vantaggio dell'approccio bayesiano - sui metodi classici, che di solito forniscono solo una stima puntuale dei parametri rappresentati dalla modalità della funzione di probabilità e fanno uso di ipotesi di normalità asintotica e di un'approssimazione quadratica della funzione di verosimiglianza per descrivere le incertezze. Con il quadro bayesiano, non è necessario utilizzare alcuna approssimazione per valutare le incertezze poiché è disponibile la distribuzione posteriore completa dei parametri. Inoltre, un'analisi bayesiana può fornire intervalli credibili per i parametri o qualsiasi funzione dei parametri che sono più facilmente interpretabili rispetto al concetto di intervallo di confidenza nelle statistiche classiche (Congdon, 2001).

Quindi, ad esempio, puoi calcolare intervalli credibili per la differenza tra due parametri.


6

Sir Harold Jeffreys era un forte sostenitore dell'approccio bayesiano. Dimostrò che se si usano priori diffusi impropri l'inferenza bayesiana risultante sarebbe la stessa dell'approccio inferenziale frequentista (cioè, le regioni credibili bayesiane sono le stesse degli intervalli di confidenza frequentista). La maggior parte dei bayesiani è a favore di priori informativi adeguati. Ci sono problemi con i priori impropri e alcuni possono sostenere che nessun precedente è veramente non informativo. Penso che i bayesiani che usano prima questi Jeffreys lo facciano come seguaci di Jeffreys. Dennis Lindley , uno dei più forti sostenitori dell'approccio bayesiano, nutriva un grande rispetto per Jeffreys, ma sosteneva i priori informativi.


1
+1 per le prime righe della tua risposta. Secondo me, la ragione per scegliere un priore di Jeffreys piuttosto che un priore "non informativo" non è semplicemente un seguace di Jeffreys. È perché è davvero come non fare ipotesi mentre un cosiddetto priore non informativo sta facendo un'ipotesi sulla parametrizzazione.
Neil G,

1
@NeilG Ho anche trovato alcune persone come usarle essenzialmente per "Fail Frequentist" (nello stesso senso di Fail Safe) quando usano priori non informativi in ​​modo che possano essere interpretati da un lettore ingenuo.
Fomite,

@EpiGrad: cosa intendi? (Mi dispiace, la mia comprensione delle statistiche dei frequentisti è molto scarsa.)
Neil G

1
@NeilG Essenzialmente sfruttando il fatto che un priore di Jeffrey ti darà ciò che qualcuno si è formato in campi frequentatori si aspetta di vedere. È una via di mezzo decente quando si lavora con metodi bayesiani posizionati non è penetrato molto.
Fomite,

@NeilG Ho anche dimenticato che, come nella mia risposta, se stai usando MCMC per condurre un'analisi frequentista, aggirando i problemi di convergenza, anche il precedente di Jeffrey è utile.
Fomite

6

L'approccio bayesiano presenta vantaggi pratici. Aiuta con la stima, spesso essendo obbligatorio. E consente nuove famiglie di modelli e aiuta nella costruzione di modelli più complicati (gerarchici, multilivello).

Ad esempio, con modelli misti (inclusi effetti casuali con parametri di varianza) si ottengono stime migliori se i parametri di varianza sono stimati emarginando su parametri di livello inferiore (coefficienti del modello; questo si chiama REML ). L'approccio bayesiano lo fa naturalmente. Con questi modelli, anche con REML, le stime di probabilità massima (ML) dei parametri di varianza sono spesso zero o distorte verso il basso. Un precedente adeguato per i parametri di varianza aiuta.

Anche se viene utilizzata la stima puntuale ( MAP , massimo a posteriori), i priori cambiano la famiglia di modelli. La regressione lineare con un ampio set di variabili un po 'collineari è instabile. La regolarizzazione L2 è usata come rimedio, ma è interpretabile come un modello bayesiano con precedente gaussiano (non informativo) e stima MAP. (La regolarizzazione L1 è un precedente diverso e dà risultati diversi. In realtà qui il precedente può essere in qualche modo informativo, ma riguarda le proprietà collettive dei parametri, non un singolo parametro.)

Quindi ci sono alcuni modelli comuni e relativamente semplici in cui è necessario un approccio bayesiano solo per fare la cosa!

Le cose sono ancora più favorevoli con modelli più complicati, come l' allocazione latente di Dirichlet (LDA) utilizzata nell'apprendimento automatico. E alcuni modelli sono intrinsecamente bayesiani, ad esempio quelli basati sui processi di Dirichlet .


6

practicalθ^=θ^(x1,,xn)ΘfXn+1Θ(xn+1θ)fXn+1Θ(xn+1θ^)θ^

fXn+1X1,,Xm(xn+1x1,,xn)=fXn+1Θ(xn+1θ)π(θx1,,xn)dθ.

6
βlog(σ2)

Relativo al commento di @ Cyan.

4

Ci sono diverse ragioni:

  1. ±SE
  2. Le grandi proprietà del campione sono di solito completamente identiche ad un corrispondente approccio frequentista.
  3. Spesso c'è una considerevole riluttanza a concordare su tutti i priori, non importa quanto effettivamente sappiamo, a causa della paura di essere accusati di "non essere obiettivi". Usando i priors non informativi ("no priors") si può pretendere che non ci siano problemi del genere, il che eviterà le critiche di alcuni recensori.

Ora per quanto riguarda gli aspetti negativi del solo utilizzo di priori non informativi, a partire da quello che penso sia il più importante e quindi dirigendosi verso alcuni degli aspetti tecnici anche abbastanza importanti:

  1. L'interpretazione di ciò che ottieni è, onestamente, più o meno la stessa cosa dell'inferenza frequente. Non puoi semplicemente rietichettare la tua inferenza con la massima verosimiglianza del frequentatore come inferenza a bayesiana massima a posteriori e affermare che ciò ti assolve da qualsiasi preoccupazione relativa a confronti multipli, a più sguardi sui dati e ti consente di interpretare tutte le affermazioni in termini di probabilità che un'ipotesi è vero. Certo, errori di tipo I e così via sono concetti frequenti, ma come scienziati dovremmo preoccuparci di fare affermazioni false e sappiamo che fare quanto sopra causa problemi. Molti di questi problemi scompaiono (o almeno sono molto meno un problema), se incorpori le cose in un modello gerarchico / fai qualcosa di Bayes empirico, ma questo di solito si riduce alla generazione implicita di priori attraverso la procedura di analisi includendo la base per il tuo precedente nel tuo modello (e un'alternativa a quella è formulare esplicitamente i priori). Queste considerazioni sono spesso ignorate, a mio avviso principalmente per condurre il p-hacking bayesiano (cioè introdurre molteplicità, ma ignorarlo) con la foglia di fico di una scusa che questo non è un problema quando si usano i metodi bayesiani (omettendo tutte le condizioni che sarebbero deve essere adempiuto).
  2. Sul lato più "tecnico", i priori non informativi sono problematici, perché non è garantito un posteriore adeguato. Molte persone hanno dotato i modelli bayesiani di priori non informativi e non si sono resi conto che il posteriore non è corretto. Di conseguenza sono stati generati campioni MCMC che erano essenzialmente privi di significato.

L'ultimo punto è un argomento per preferire priori piuttosto vaghi (o leggermente più debolmente informativi) che garantiscano un adeguato posteriore. Certo, a volte può essere difficile campionare anche da questi, e può essere difficile notare che l'intero posteriore non è stato esplorato. Tuttavia, in molti campi è stato dimostrato che i metodi bayesiani con priori vaghi (ma propri) hanno proprietà del campione davvero buone da una prospettiva frequentista e si può certamente vedere che si tratta di un argomento per usarli, mentre con un po 'più di dati non ci sarà quasi qualsiasi differenza rispetto ai metodi con priori non informativi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.