Rispetto al commento di Robby McKilliam: Penso che la difficoltà che un frequentatore avrebbe con questo risieda nella definizione di "conoscenza precedente", non tanto nella capacità di incorporare la conoscenza precedente in un modello. Ad esempio, considera di stimare la probabilità che una determinata moneta arrivi a testa alta. Supponiamo che la mia conoscenza precedente fosse, essenzialmente, un esperimento in cui quella moneta era stata lanciata 10 volte e aveva prodotto 5 teste, o forse della forma "la fabbrica ha prodotto 1 milione di monete e la distribuzione di , come determinato da enormi esperimenti, è β ( a , b )pβ(a,b)". Tutti usano la regola di Bayes quando in realtà si dispone di informazioni preliminari di questo tipo (la regola di Bayes definisce solo la probabilità condizionale, non è una cosa solo bayesiana), quindi nella vita reale il frequentatore e il bayesiano userebbero lo stesso approccio, e incorporare le informazioni nel modello tramite la regola di Bayes. (Avvertenza: a meno che la dimensione del campione non sia sufficientemente grande da essere abbastanza sicuro che le informazioni precedenti non avranno un effetto sui risultati.) Tuttavia, l'interpretazione dei risultati è, di ovviamente diverso.
La difficoltà sorge, soprattutto da un punto di vista filosofico, poiché la conoscenza diventa meno oggettiva / sperimentale e più soggettiva. In questo caso, il frequentatore probabilmente diventerà meno incline a incorporare queste informazioni nel modello, mentre il bayesiano ha ancora alcuni meccanismi più o meno formali per farlo, nonostante le difficoltà a suscitare un precedente soggettivo.
l(θ;x)p(θ)logp(θ)
θ~=maxθ{logl(θ;x)+logp(θ)}
p(θ)θθ~
Ancora una volta, la difficoltà sorge da un punto di vista filosofico. Perché scegliere una funzione di regolarizzazione rispetto a un'altra? Un bayesiano può farlo - passando a una visione precedente - valutando le informazioni precedenti. Un frequentista avrebbe un momento più difficile (incapace di?) Giustificare una scelta per questi motivi, ma probabilmente lo farebbe in gran parte sulla base delle proprietà della funzione di regolarizzazione applicata al suo tipo di problema, come appreso dall'articolazione lavoro / esperienza di molti statistici. OTOH, i bayesiani (pragmatici) lo fanno anche con i priori - se avessi $ 100 per ogni articolo sui priori per le varianze che ho letto ...
Altri "pensieri": ho saltato l'intera questione della selezione di una funzione di probabilità supponendo che non sia influenzata dal punto di vista frequentista / bayesiano. Sono sicuro che nella maggior parte dei casi lo è, ma posso immaginare che in situazioni insolite lo sarebbe, ad esempio, per ragioni computazionali.
θθ