Quando la distribuzione del campionamento frequentista non può essere interpretata come posteriore bayesiana nelle impostazioni di regressione?


11

Le mie attuali domande sono negli ultimi due paragrafi, ma per motivarle:

Se sto tentando di stimare la media di una variabile casuale che segue una distribuzione normale con una varianza nota, ho letto che mettere una divisa prima della media si traduce in una distribuzione posteriore che è proporzionale alla funzione di probabilità. In queste situazioni, l'intervallo credibile bayesiano si sovrappone perfettamente con l'intervallo di confidenza del frequentatore e la stima massima a posteriori bayesiana è uguale alla stima della massima verosimiglianza del frequentatore.

In una semplice impostazione di regressione lineare,

Y=Xβ+ϵ,ϵN(0,σ2)

mettere un precedente uniforme su e un precedente inverso-gamma su con valori di parametro piccoli produce un posteriore che sarà molto simile al frequentista e un intervallo credibile per la distribuzione posteriore di che sarà molto simile all'intervallo di confidenza attorno alla stima della massima verosimiglianza. Non saranno esattamente gli stessi perché il precedente su esercita una piccola quantità di influenza e se la stima posteriore viene effettuata tramite simulazione MCMC che introdurrà un'altra fonte di discrepanza, ma l'intervallo credibile bayesiano attorno alσ 2 β M A P β M L E β | X σ 2 β M A P β M L Eβσ2β^MAPβ^MLEβ|Xσ2β^MAPe l'intervallo di confidenza frequentista attorno a sarà abbastanza vicino l'uno all'altro, e naturalmente all'aumentare della dimensione del campione dovrebbero convergere mentre l'influenza della probabilità cresce per dominare quella del precedente.β^MLE

Ma ho letto che ci sono anche situazioni di regressione in cui queste equivalenze vicine non valgono. Ad esempio, regressioni gerarchiche con effetti casuali o regressione logistica: si tratta di situazioni in cui, a quanto ho capito, non vi sono "buoni" obiettivi o precedenti di riferimento.

Quindi la mia domanda generale è questa: supponendo che io voglia fare deduzione suP(β|X)e che non ho informazioni preliminari che voglio incorporare, perché non posso procedere con la stima della massima verosimiglianza da parte del frequentatore in queste situazioni e interpretare le stime dei coefficienti risultanti e gli errori standard come stime MAP bayesiane e deviazioni standard e trattarle implicitamente stime "posteriori" come risultanti da un precedente che deve essere stato "non informativo" senza tentare di trovare la formulazione esplicita del precedente che porterebbe a un simile posteriore? In generale, nell'ambito dell'analisi di regressione, quando va bene procedere su questa linea (di trattare la probabilità come un posteriore) e quando non va bene? Che dire dei metodi frequentisti che non sono basati sulla verosimiglianza, come i metodi di quasi verosimiglianza,

Le risposte dipendono dal fatto che il mio obiettivo di inferenza sia la stima del punto di coefficiente, o la probabilità che un coefficiente si trovi all'interno di un determinato intervallo o quantità della distribuzione predittiva?

Risposte:


6

Questa è sostanzialmente una domanda sui valori e la massima probabilità. Vorrei citare Cohen (1994) quip

Quello che vogliamo sapere è "Dati questi dati qual è la probabilità che sia vero?" Ma come molti di noi sanno, ciò che ci dice [ -value] è "Dato che è vero, qual è la probabilità di questi (o più estremi) dati?" Questi non sono gli stessi (...) p H 0H0pH0

Quindi -value ci dice cos'è , mentre siamo interessati a (vedi anche la discussione sul framework Fisherian vs Neyman-Pearson ).P ( D | H 0 ) P ( H 0pP(D|H0)P(H0|D)

Dimentichiamoci per un momento di -values. La probabilità di osservare i nostri dati dati alcuni parametri è la funzione di probabilitàpθ

L(θ|D)=P(D|θ)

questo è un modo di considerare l'inferenza statistica. Un altro modo è l'approccio bayesiano in cui vogliamo imparare direttamente (piuttosto che indirettamente) su impiegando il teorema di Bayes e usando i priori perP(θ|D)θ

P(θ|D)posteriorP(D|θ)likelihood×P(θ)prior

Ora, se guardi il quadro generale, vedrai che i valori e la probabilità rispondono a domande diverse rispetto alla stima bayesiana.p

Quindi, mentre le stime di massima verosimiglianza dovrebbero essere le stesse delle stime bayesiane del MAP sotto priori uniformi, devi ricordare che rispondono a una domanda diversa.


Cohen, J. (1994). La terra è rotonda (p <.05). Psicologo americano, 49, 997-1003.


Grazie per la tua risposta @Tim. Avrei dovuto essere più chiaro: capisco che P (D | H) e P (H | D) in generale non sono gli stessi e che frequentisti e bayesiani differiscono nell'opinione se sia opportuno assegnare distribuzioni di probabilità ai parametri ( o ipotesi più in generale). Quello che sto chiedendo sono le situazioni in cui la distribuzione (frequentista) di campionamento di uno stimatore sarà numericamente equivalente alla distribuzione posteriore (bayesiana) del valore del parametro reale.
Yakkanomica,

Continuazione del mio precedente commento: Hai scritto: "Quindi, mentre le stime della massima verosimiglianza dovrebbero essere le stesse delle stime bayesiane del MAP sotto priori uniformi" - Sto chiedendo se ci sono situazioni in cui questa relazione si rompe - entrambi in termini delle stime puntuali e delle distribuzioni circostanti.
Yakkanomica,

Un ultimo addendum: alcune persone direbbero che la principale virtù dell'approccio bayesiano è la capacità di incorporare in modo flessibile conoscenze precedenti. Per me, l'appello dell'approccio bayesiano è nell'interpretazione: la capacità di assegnare una distribuzione di probabilità a un parametro. La necessità di specificare i priori è una seccatura. Voglio sapere in quali situazioni posso usare metodi frequentisti ma assegnare ai risultati un'interpretazione bayesiana sostenendo che i risultati frequentisti e bayesiani coincidono numericamente con priori plausibilmente non informativi.
Yakkanomica,

2
@Yakkanomica Capisco, è una domanda interessante, ma la risposta semplice (come detto sopra) è che non dovresti fare tali interpretazioni perché i metodi più frequenti rispondono alla domanda diversa da quella bayesiana. Le stime dei punti ML e MAP dovrebbero concordare, ma gli intervalli di confidenza e l'HDI possono differire e non devono essere interpretati come intercambiabilità.
Tim

Ma @Tim, ci sono situazioni in cui gli intervalli di confidenza e l'HDI si sovrappongono. Ad esempio, confrontare le stime ML su p.1906 con le stime posteriori bayesiane (basate su priori uniformi sui coefficienti e IG prima della scala) su p.1908: esempio PROC GENMOD . La stima del punto ML e i limiti di confidenza al 95% sono molto simili alla stima media posteriore bayesiana e all'intervallo HPD al 95%.
Yakkanomica,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.