In che modo la struttura bayesiana è migliore nell'interpretazione quando di solito usiamo priori non informativi o soggettivi?


18

Si sostiene spesso che il framework bayesiano abbia un grande vantaggio nell'interpretazione (rispetto al frequentista), perché calcola la probabilità di un parametro dati i dati - invece di p ( x | θ ) come nel quadro frequentista . Fin qui tutto bene.p(θ|X)p(X|θ)

Ma l'intera equazione si basa su:

p(θ|X)=p(X|θ).p(θ)p(X)

mi sembra poco sospetto per 2 motivi:

  1. In molti articoli, vengono normalmente usati priori non informativi (distribuzioni uniformi) e quindi solo , quindi i bayesiani ottengono lo stesso risultato dei frequentatori, quindi come è quindi migliore la struttura bayesiana in interpretazione, quando la probabilità bayesiana posteriore e quella dei frequentatori sono le stesse distribuzioni? Produce solo lo stesso risultato.p(θ|X)=p(X|θ)

  2. Quando si utilizzano priori informativi, si ottengono risultati diversi, ma il bayesiano è influenzato dal priore soggettivo, quindi anche l'intera ha una sfumatura soggettiva.p(θ|X)

In altre parole, l'intero argomento di essendo migliore nell'interpretazione di basa su una presunzione chep ( x | θ ) p ( θ )p(θ|X)p(X|θ)p(θ) sia una specie di "reale", che normalmente non lo è, è solo un punto di partenza che in qualche modo scegliamo di far funzionare l'MCMC, una presunzione, ma non è una descrizione della realtà (penso che non possa essere definita).

Quindi, come possiamo sostenere che bayesiano sia migliore nell'interpretazione?


4
(1) sembra sospetto perché la sua conclusione è errata: i risultati bayesiani con priori non informativi non sono necessariamente gli stessi delle conclusioni frequentiste. In effetti, in molti casi non sembra esserci accordo su cosa sia un "precedente non informativo"! (2) è anche discutibile perché presuppone implicitamente che ogni ipotesi fatta in un'analisi del frequentista non sia soggettiva, ma non è così. Infine, cosa intendi esattamente con "migliore interpretazione"? La tua domanda è ambigua senza una definizione di ciò.
whuber

1
Oltre al commento di Whuber, vorrei dire che non vi è alcun motivo generale per cui Bayes sia migliore del frequentatore, quindi l'argomento. A volte Bayes dà risultati significativi e a volte il modo frequentatore è migliore. Tuttavia, nel campo applicato, non ci dovrebbero essere motivi per ottenere risultati molto diversi. Da una prospettiva filosofica, Bayes è decisamente forte, ma come tutti sappiamo, la teoria e la pratica differiscono, a volte drasticamente. Inoltre, sono un po 'preoccupato per il tuo primo paragrafo. Mi sembra che tu sia un bayesiano impegnato (non c'è nulla di sbagliato in questo.).
suncoolsu,

Il titolo non dovrebbe essere uninformative or *objective* priors? I subjectivepriori sono esattamente priori informativi .
javadba,

Risposte:


15

Per dare una risposta più ristretta rispetto a quelle eccellenti che sono già state pubblicate e concentrarsi sul vantaggio nell'interpretazione: l'interpretazione bayesiana di un "intervallo credibile al 95%", ad esempio, è che la probabilità che il vero valore del parametro sia all'interno del l'intervallo è pari al 95%. Una delle due interpretazioni più frequenti di un "intervallo di confidenza al 95%", anche se numericamente i due sono identici, è che a lungo termine, se dovessimo eseguire la procedura molte volte, la frequenza con cui il intervallo coprirebbe il valore reale converrebbe al 95%. Il primo è intuitivo, il secondo no. Prova a spiegare a un manager qualche volta che non puoi dire "La probabilità che i nostri pannelli solari si degradino di meno del 20% in 25 anni è del 95%", ma devi invece dire "

Un'interpretazione alternativa da parte del frequentatore sarebbe "Prima che i dati fossero generati, c'era una probabilità del 5% che l'intervallo che avrei calcolato usando la procedura su cui mi ero stabilito sarebbe completamente al di sotto del vero valore del parametro. Tuttavia, ora che abbiamo raccolto i dati, non possiamo fare alcuna affermazione del genere, perché non siamo soggettivisti e la probabilità è 0 o 1, a seconda che si trovi o meno completamente al di sotto del vero valore del parametro. " Questo aiuterà con i revisori e nel calcolo di una riserva di garanzia. (Trovo in realtà questa definizione ragionevole, anche se di solito non utile; non è anche facile da capire intuitivamente, e soprattutto non se non sei uno statistico.)

Né l'interpretazione frequentista è intuitiva. La versione bayesiana è. Da qui il "grande vantaggio nell'interpretazione" contenuto nell'approccio bayesiano.


Il mio problema con l'argomento anti-frequentista è che tenta troppo di descrivere la procedura come una risposta. Prova lo stesso esperimento per te stesso nell'interpretazione, ma per quale conclusione trarre dai risultati. Esattamente come vuoi agire in modo diverso in base a sentire i risultati forniti da un frequentista e bayesiano? In realtà, continuerai ad agire allo stesso modo quando capirai entrambi. Non è necessario andare al livello della procedura per spiegare che "la cosa migliore è agire in tal modo e in base alla fiducia data dai dati".
PascalVKooten il

Inoltre, per definizione, dovrai fare di più spiegando nel caso bayesiano, dal momento che non hai solo "ciò che i dati ci dicono" ma anche quali informazioni contiene il precedente! I bayesiani tendono a fare una lunga spiegazione da parte del frequentatore, ma non spiegano quale precedente hanno scelto, perché hanno scelto un precedente e in particolare perché.
PascalVKooten,

Bene, in parte non sarò d'accordo con il tuo ultimo punto. Ad esempio, quando stavo facendo un'analisi di affidabilità su attrezzature molto costose nel mio lavoro precedente, abbiamo trattato i risultati della nostra precedente analisi di affidabilità come una precedente per la nostra nuova, sottopesata in termini di "dimensione del campione equivalente" per tenere conto della non stazionarietà del mondo reale e dei piccoli cambiamenti nel design ecc. E, in realtà, le statistiche bayesiane riguardano l'aggiornamento dei dati precedenti; le statistiche classiche non si "aggiornano", quindi si ottengono gli stessi risultati solo se il precedente è piatto, con alcune eccezioni.
jbowman

Vorrei solo unire i set di dati ed eseguire un'altra analisi ... non è necessario elaborare un precedente. Non c'è niente di meglio che i dati precedenti reali: si ottiene un posteriore "reale" basato sui dati.
PascalVKooten,

Beh, potresti non voler esattamente il posteriore precedente per il tuo nuovo precedente, nel nostro caso a causa di continui cambiamenti di progettazione minori e la nostra conoscenza che il mfg. anche il processo si stava evolvendo rendendo il nostro precedente non informativo al 100% per i dati futuri. Potrebbero esserci anche considerazioni sul runtime. Ma il tuo punto è generalmente buono, mi sembra.
jbowman

13

p(θ|X)p(X|θ)p(X|θ)p(θ|X)

Si noti che i priori informativi non sono necessariamente soggettivi, per esempio non considererei la conoscenza soggettiva asserire che la conoscenza preliminare di alcuni sistemi fisici dovrebbe essere indipendente dalle unità di misura (poiché sono essenzialmente arbitrarie), portando all'idea di gruppi di trasformazione e priori "minimamente informativi".

Il rovescio della medaglia nell'ignorare la conoscenza soggettiva è che il tuo sistema potrebbe non essere ottimale perché stai ignorando la conoscenza degli esperti, quindi la soggettività non è necessariamente una cosa negativa. Ad esempio nel solito problema "inferire il pregiudizio di una moneta", spesso usato come esempio motivante, imparerai relativamente lentamente con un'uniforme prima che i dati arrivino. Ma tutte le quantità di pregiudizio sono ugualmente probabili un presupposto ragionevole? No, è facile fare una moneta leggermente distorta, o una moneta completamente distorta (due teste o due soldi), quindi se costruiamo tale presupposto nella nostra analisi, tramite un precedente soggettivo, avremo bisogno di meno dati per identificare ciò che il il pregiudizio in realtà lo è.

Le analisi del frequentista spesso contengono anche elementi soggettivi (ad esempio la decisione di respingere l'ipotesi nulla se il valore p è inferiore a 0,05, non vi è alcuna costrizione logica a farlo, è semplicemente una tradizione che si è rivelata utile). Il vantaggio dell'approccio bayesiano è che la soggettività è resa esplicita nel calcolo, piuttosto che lasciarla implicita.

Alla fine della giornata, si tratta di "cavalli per corsi", dovresti avere entrambi i set di strumenti nella tua cassetta degli attrezzi ed essere pronto a utilizzare lo strumento migliore per l'attività a portata di mano.

»


6

La struttura bayesiana ha un grande vantaggio rispetto al frequentista perché non dipende dall'avere una "sfera di cristallo" in termini di conoscenza delle ipotesi distributive corrette da fare. I metodi bayesiani dipendono dall'utilizzo delle informazioni che hai e dal saper codificare tali informazioni in una distribuzione di probabilità.

L'uso dei metodi bayesiani sta fondamentalmente usando la teoria della probabilità nella sua piena potenza. Il teorema di Bayes non è altro che una riaffermazione della classica regola del prodotto della teoria della probabilità:

p(θX|io)=p(θ|io)p(X|θio)=p(X|io)p(θ|Xio)

p(X|io)0io

Ora, se pensi che il teorema di Bayes sia sospetto, quindi logicamente, devi anche pensare che anche la regola del prodotto sia sospetta. Puoi trovare un argomento deduttivo qui , che deriva le regole di prodotto e somma, simile al teorema di Cox. Un elenco più esplicito delle ipotesi richieste è disponibile qui .

Per quanto ne so, l'inferenza del frequentista non si basa su un insieme di basi all'interno di un quadro logico. Poiché utilizza gli assiomi di probabilità di Kolmogorov, non sembra esserci alcuna connessione tra la teoria della probabilità e l'inferenza statistica. Non ci sono assiomi per l'inferenza del frequentista che conducono a una procedura da seguire. Esistono principi e metodi (massima probabilità, intervalli di confidenza, valori p, ecc.) E funzionano bene, ma tendono ad essere isolati e specializzati per problemi particolari. Penso che i metodi frequentisti siano meglio lasciati vaghi nelle loro basi, almeno in termini di un rigoroso quadro logico.

1θ , e mi è capitato di indovinare la stima della massima verosimiglianza (MLE), ciò non significherebbe che la mia ipotesi è buona quanto MLE.

2 , perché dovresti preoccuparti che le persone con informazioni diverse giungano a conclusioni diverse? Qualcuno con un dottorato in matematica dovrebbe, e dovrebbe, giungere a conclusioni diverse per qualcuno con matematica di livello superiore. Hanno diverse quantità di informazioni: perché dovremmo aspettarci che siano d'accordo? Quando ti vengono presentate informazioni conosciute, tendi a cambiare idea. Quanto dipende dal tipo di informazione che era. Il teorema di Bayes contiene questa funzione, come dovrebbe.

L'uso di un precedente uniforme è spesso una comoda approssimazione da fare quando la probabilità è forte rispetto al precedente. Non vale la pena lo sforzo a volte, per passare attraverso e impostare correttamente un precedente. Allo stesso modo, non commettere l'errore di confondere le statistiche bayesiane con MCMC. MCMC è solo un algoritmo per l'integrazione, lo stesso del quadratre guassiano e in una classe simile all'approssimazione di Laplace. È un po 'più utile di quadratre perché puoi riutilizzare l'output dell'algoritmo per fare tutti i tuoi integrali (i mezzi posteriori e le varianze sono integrali) e un po' più generale di Laplace perché non hai bisogno di un grande campione, o un picco ben arrotondato nella parte posteriore (Laplace è però più veloce).


3

μ=0) posto su un coefficiente di regressione, codificando la consapevolezza che tutte le cose sono uguali, preferiamo soluzioni in cui i coefficienti hanno magnitudini inferiori. Questo per evitare di sovralimentare un set di dati, trovando soluzioni che massimizzano la funzione oggettiva ma che non hanno senso nel particolare contesto del nostro problema. In un certo senso, forniscono un modo per fornire al modello statistico alcuni "indizi" su un determinato dominio.

Tuttavia, questo non è (secondo me) l'aspetto più importante delle metodologie bayesiane. I metodi bayesiani sono generativi, in quanto forniscono una "storia" completa su come i dati sono venuti alla luce. Pertanto, non sono semplicemente cercatori di schemi, ma piuttosto sono in grado di prendere in considerazione l'intera realtà della situazione attuale. Ad esempio, si consideri LDA (allocazione latente di Dirichlet), che fornisce una storia generativa completa su come un documento di testo diventa, che va in questo modo:

  1. Seleziona una combinazione di argomenti in base alla probabilità che si verifichino determinati argomenti; e
  2. Seleziona alcune parole dal vocabolario, condizionate in base agli argomenti selezionati.

Pertanto, il modello si adatta sulla base di una comprensione molto specifica degli oggetti nel dominio (qui, documenti di testo) e di come sono stati creati; pertanto, le informazioni che otteniamo vengono adattate direttamente al nostro dominio problematico (probabilità di parole fornite di argomenti, probabilità che gli argomenti vengano menzionati insieme, probabilità di documenti contenenti argomenti e in che misura, ecc.). Il fatto che il Teorema di Bayes sia tenuto a farlo è quasi secondario, quindi il piccolo scherzo "Bayes non sarebbe un bayesiano e Cristo non sarebbe un cristiano".

In breve, i modelli bayesiani si basano sulla modellazione rigorosa degli oggetti del dominio usando le distribuzioni di probabilità; pertanto, siamo in grado di codificare conoscenze che altrimenti non sarebbero disponibili con una semplice tecnica discriminatoria.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.