Frequentismo e priori

Robby McKilliam dice in un commento a questo post:

Va sottolineato che, dal punto di vista dei frequentisti, non vi è alcun motivo per cui non è possibile incorporare le conoscenze precedenti nel modello. In questo senso, la visione frequentista è più semplice, hai solo un modello e alcuni dati. Non è necessario separare le informazioni precedenti dal modello

Inoltre, qui , @jbowman afferma che i frequentatori usano la regolarizzazione mediante una funzione di costo / penalità, mentre i bayesiani possono farne un precedente:

I frequentatori hanno capito che la regolarizzazione era buona e la usano abbastanza comunemente in questi giorni - e i priori bayesiani possono essere facilmente interpretati come regolarizzazione.

Quindi, la mia domanda è: i frequentatori in generale possono incorporare nei loro modelli ciò che i bayesiani specificano come priori? Prendendo ad esempio la regolarizzazione, la funzione costo / penalità è davvero integrata nel modello o è un mezzo puramente artificiale per adattare la soluzione (oltre a renderla unica)?

— Patrick
fonte

Un moderatore potrebbe informare jbowman e Robby, in modo che possano elaborare? O non è appropriato?

— Patrick,

Patrick, si può notificare qualsiasi membro di questo sito utilizzando il costrutto "@". Ho illustrato questo con una piccola modifica.

— whuber

Funziona in entrambi i posti :-).

— whuber

Accidenti, @whuber, non sono stato avvisato ... forse le modifiche non lo fanno? Adesso sono curioso.

— jbowman,

OK, ho scoperto che mi sbagliavo : il meccanismo "@" funziona nei commenti, non nelle domande. (Ma jbowman ha trovato questa domanda comunque.)

— whuber

Risposte:

Rispetto al commento di Robby McKilliam: Penso che la difficoltà che un frequentatore avrebbe con questo risieda nella definizione di "conoscenza precedente", non tanto nella capacità di incorporare la conoscenza precedente in un modello. Ad esempio, considera di stimare la probabilità che una determinata moneta arrivi a testa alta. Supponiamo che la mia conoscenza precedente fosse, essenzialmente, un esperimento in cui quella moneta era stata lanciata 10 volte e aveva prodotto 5 teste, o forse della forma "la fabbrica ha prodotto 1 milione di monete e la distribuzione di , come determinato da enormi esperimenti, è $p$ $\beta(a,b)$ ". Tutti usano la regola di Bayes quando in realtà si dispone di informazioni preliminari di questo tipo (la regola di Bayes definisce solo la probabilità condizionale, non è una cosa solo bayesiana), quindi nella vita reale il frequentatore e il bayesiano userebbero lo stesso approccio, e incorporare le informazioni nel modello tramite la regola di Bayes. (Avvertenza: a meno che la dimensione del campione non sia sufficientemente grande da essere abbastanza sicuro che le informazioni precedenti non avranno un effetto sui risultati.) Tuttavia, l'interpretazione dei risultati è, di ovviamente diverso.

La difficoltà sorge, soprattutto da un punto di vista filosofico, poiché la conoscenza diventa meno oggettiva / sperimentale e più soggettiva. In questo caso, il frequentatore probabilmente diventerà meno incline a incorporare queste informazioni nel modello, mentre il bayesiano ha ancora alcuni meccanismi più o meno formali per farlo, nonostante le difficoltà a suscitare un precedente soggettivo.

$l(\theta;x)$ $p(\theta)$ $\log p(\theta)$

$\tilde{\theta} = \max_{\theta} \{\log l(\theta;x) + \log p(\theta) \}$

$p(\theta)$ $\theta$ $\tilde{\theta}$

Ancora una volta, la difficoltà sorge da un punto di vista filosofico. Perché scegliere una funzione di regolarizzazione rispetto a un'altra? Un bayesiano può farlo - passando a una visione precedente - valutando le informazioni precedenti. Un frequentista avrebbe un momento più difficile (incapace di?) Giustificare una scelta per questi motivi, ma probabilmente lo farebbe in gran parte sulla base delle proprietà della funzione di regolarizzazione applicata al suo tipo di problema, come appreso dall'articolazione lavoro / esperienza di molti statistici. OTOH, i bayesiani (pragmatici) lo fanno anche con i priori - se avessi $ 100 per ogni articolo sui priori per le varianze che ho letto ...

Altri "pensieri": ho saltato l'intera questione della selezione di una funzione di probabilità supponendo che non sia influenzata dal punto di vista frequentista / bayesiano. Sono sicuro che nella maggior parte dei casi lo è, ma posso immaginare che in situazioni insolite lo sarebbe, ad esempio, per ragioni computazionali.

$\theta$ $\theta$

— jbowman
fonte

Quindi, se ti capisco bene: tecnicamente, formalmente, un frequentatore può regolarizzare quanto gli piace, ma avrà problemi a giustificarlo. Un bayesiano potrebbe avere ancora problemi a quantificare la sua regolarizzazione, ma qualitativamente ha un modo coerente di incorporarla.

— Patrick,

Inoltre, il bayesiano non è costretto a utilizzare una stima del punto MAP, avendo accesso a una distribuzione posteriore completa - ma poi, il frequentatore non deve massimizzare una probabilità logaritmica regolare, essendo in grado di utilizzare varie stime affidabili o un metodo di -momenti, ecc., se disponibili. Il frequentista non deve massimizzare. Ma è ancora un metodo disponibile per i frequentisti, se lo scelgono, giusto? La mia impressione è che per ragioni storiche (senza computer!) I frequentatori hanno molti stimatori intelligenti che usano invece di calcolare una funzione di probabilità completa.

— Patrick,

Allo scopo di rispondere a questa domanda è utile definire il frequentismo come "interessare le proprietà della distribuzione campionaria delle funzioni dei dati". Tali funzioni potrebbero essere stimatori puntuali, valori p delle statistiche dei test, intervalli di confidenza, risultati dei test Neyman-Pearson o praticamente qualsiasi altra cosa a cui tu possa pensare. Il frequentismo non specifica come costruire stimatori, valori p, ecc., In generale, sebbene esistano alcune linee guida, ad es. Usare statistiche sufficienti se sono disponibili, usare statistiche pivotali se disponibili, ecc. Da questo prospettiva, le informazioni precedenti non sono incorporate nel modello in sé , ma piuttosto nei dati di mappatura della funzione all'output della funzione.

L '"interesse" di cui sopra è nelle proprietà considerate importanti per l'inferenza, come la mancanza di parzialità, la coerenza asintotica, la varianza, l'errore quadratico medio, l'errore assoluto medio, la copertura della fiducia (soprattutto nominale rispetto all'attuale), il controllo degli errori di tipo I e qualsiasi altra cosa altro con importanza ovvia o intuitiva per l'apprendimento dai dati. Queste proprietà possono essere valutate (mediante simulazione, se non altro) se la funzione incorpora o meno informazioni precedenti.

Particolari interessi si concentrano su proprietà che possono essere note per contenere indipendentemente dai valori dei parametri reali alla base del processo di generazione dei dati. Ad esempio, nel normale modello di iid con varianza nota la media dei dati è imparziale e asintoticamente coerente per la media di distribuzione, qualunque cosa sia. Al contrario, uno stimatore del restringimento (una media ponderata della media dei dati e un'ipotesi precedente per la media di distribuzione) presenta un errore quadratico medio inferiore se la media di distribuzione è vicina all'ipotesi precedente, ma un errore quadratico medio superiore altrimenti, anche se " eredita "consistenza asintotica dalla media dei dati.

Quindi direi che si possono mettere le informazioni precedenti nel metodo di inferenza, ma non vanno nel modello. Un'illustrazione davvero bella delle nozioni che ho delineato nel contesto degli intervalli di confidenza per le proprietà fisiche che sono necessariamente non negative è Feldman e Cugini, un approccio unificato all'analisi statistica classica dei piccoli segnali .

— Ciano
fonte