In quali condizioni coincidono gli stimatori dei punti bayesiani e frequentisti?


17

Con un precedente piatto, gli stimatori ML (frequentista - massima probabilità) e MAP (bayesiano - massimo a posteriori) coincidono.

Più in generale, tuttavia, sto parlando di stimatori puntuali derivati ​​come ottimizzatori di alcune funzioni di perdita. ie

(Bayesiana)  x (

x^(.)=argminE(L(Xx^(y))|y) (Bayesian) 
x^(.)=argminE(L(xx^(Y))|x)(Frequentist)

dove E è l'operatore aspettativa, L è la funzione di perdita (minimizzato a x^(y) è lo stimatore, sulla base dei dati y , del parametro x , e variabili casuali sono contrassegnati con le lettere maiuscole.

Qualcuno sa qualsiasi condizione su L , il pdf di x ed y , imposto linearità e / o di non distorsione, dove gli stimatori coincideranno?

modificare

Come notato nei commenti, un requisito di imparzialità come imparzialità è necessario per rendere significativo il problema Frequentist. I priori piatti possono anche essere una comunanza.

Oltre alle discussioni generali fornite da alcune delle risposte, la domanda riguarda anche fornire esempi concreti . Penso che uno importante venga dalla regressione lineare:

  • x = ( D ' D ) - 1 D ' y è il (BLU teorema di Gauss-Markov ), cioè minimizza l'MSE frequentista tra stimatori lineare imparziali.x^=(DD)1Dy
  • se è gaussiana e la prima è piatta, x = ( D ' D ) - 1 D ' y è il "posteriore" medi minimizza la perdita media Bayesiano per qualsiasi funzione perdita convessa.(X,Y)x^=(DD)1Dy

Qui, sembra essere conosciuta come matrice di dati / design nel gergo frequentista / bayesiano, rispettivamente.D


Presumo che tu voglia che la risposta assuma un piano precedente? Altrimenti, ovviamente, non è possibile che le stime possano essere ragionevoli invariate in casi generali interessanti.
user56834

2
Non è una semplice domanda a cui rispondere in generale, ma è attualmente un argomento di ricerca molto accattivante
Jeremias K

@JeremiasK, forse puoi spiegare qualcosa al riguardo in una risposta?
user56834

1
@ Programmer2134 Lo farei se mi sentissi abbastanza a mio agio con il materiale, ma non lo faccio. So che ciò che fanno è derivare una controparte bayesiana di un CLT, con alcuni "tassi di concentrazione posteriori" che ti dicono quanto velocemente il parametro posteriore si concentra su un punto nel tuo spazio dei parametri mentre aumenti la dimensione del campione, e poi sostanzialmente finisci trovare garanzie di coerenza di tipo frequentista per i tuoi stimatori bayesiani.
Jeremias K,

Risposte:


7

La domanda è interessante ma in qualche modo senza speranza a meno che la nozione di stimatore frequentista non sia resa precisa. Non è sicuramente quello impostato nella questione x ( poiché la risposta alla minimizzazione fa x ( y ) = x per tutti y 's come fuori appuntito inrisposta Programmer2134. Il problema fondamentale è che non esiste un singolo stimatore frequentatore per un problema di stima, senza introdurre vincoli supplementari o classi di stimatori. Senza quelli, tutti gli stimatori di Bayes sono anche stimatori frequentisti.

x^(.)=argminE(L(x,x^(Y))|x)
x^(y)=xy

Come sottolineato nei commenti, l' imparzialità può essere un tale vincolo, nel qual caso gli stimatori di Bayes sono esclusi. Ma questa nozione frequentista si scontra con altre nozioni frequentiste come

  1. ammissibilità, dal momento che il fenomeno James-Stein ha dimostrato che stimatori imparziali potrebbero essere inammissibili (a seconda della funzione di perdita e della dimensione del problema);
  2. invarianza sotto riparametrizzazione, poiché l'imparzialità non si tiene sottoposta a trasformazioni.

Inoltre l'imparzialità si applica solo a una classe ristretta di problemi di stima. Con questo intendo che la classe di stimatori imparziali di un certo parametro o di una trasformazione h ( θ ) è quasi sempre vuota.θh(θ)

Parlando di ammissibilità, un'altra nozione frequentista, esistono delle impostazioni per le quali gli unici stimatori ammissibili sono gli stimatori di Bayes e viceversa. Questo tipo di impostazioni si riferisce ai teoremi di classe completi stabiliti da Abraham Wald negli anni '50. (Lo stesso vale per i migliori stimatori invarianti che sono Bayes secondo la misura di Haar appropriata).


1
Esistono altri modi canonici per limitare la classe di stimatori in modo che il problema della minimizzazione sia ben definito e non degenerato (oltre a richiedere l'imparzialità), che è più vicino a quello bayesiano?
user56834

3

In generale, gli stimatori frequentista e bayesiano non coincidono, a meno che non si usi un piano degenerato in precedenza. Il motivo principale è questo: gli stimatori frequentisti spesso si sforzano di essere imparziali. Ad esempio, i frequentatori spesso cercano di trovare lo stimatore imparziale varianza minima ( http://en.wikipedia.org/wiki/Minimum-variance_unbiased_estimator ). Nel frattempo, tutti gli stimatori non degenerati di Bayes sono distorti (nel senso frequentista del pregiudizio). Vedi, ad esempio, http://www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdf , Teorema 5.

Riassumendo: la maggior parte degli stimatori frequentisti popolari si sforzano di essere imparziali, mentre tutti gli stimatori di Bayes sono di parte. Pertanto, Bayes e stimatori frequentisti raramente coincidono.


5
Mi chiedo la correttezza di queste affermazioni, dato che "la maggior parte degli stimatori frequentisti popolari" sono ML e tendono ad essere di parte (a seconda della parametrizzazione). Inoltre, un buon frequentatore è profondamente preoccupato per la perdita e l'ammissibilità; una parte fondamentale di questa teoria riconosce che le procedure ammissibili provengono dalle procedure di Bayes, da cui - almeno in quel senso ampio - il cuore stesso della teoria del frequentista si basa sugli stimatori di Bayes! Potrei essere persuaso dal tuo punto di vista se potessi essere più chiaro su "spesso", "la maggior parte" e "raramente" e sostenerlo con prove.
whuber

@whuber Un buon punto: la mia risposta è stata forse un po 'semplicistica. I veri frequentatori tendono ad usare procedure distorte (ad es. Regressione penalizzata L1 o L2), o possono persino usare procedure formalmente bayesiane. Tuttavia, penso che stimatori imparziali siano il punto di partenza per la maggior parte delle analisi frequenti. Ad esempio, il primo capitolo carnoso di Theory of Point Stimation di Lehmann & Casella (uno dei testi standard sulla stima frequentista) è tutto sull'imparzialità.
Stefan Wager,

5
Bene, OK (+1). Ma trovo il tuo ultimo argomento divertente: dopo tutto, un libro deve iniziare da qualche parte e di solito quel punto di partenza viene scelto per la sua semplicità e accessibilità, non per la sua importanza pratica. Con lo stesso ragionamento si potrebbe affermare che la maggior parte della matematica moderna si occupa principalmente di logica e teoria degli insiemi, perché spesso formano il primo capitolo di molti libri di testo di matematica! Un migliore riflesso della pratica statistica potrebbe essere l'ultima metà circa di Lehmann e Casella - dai un'occhiata a ciò che è discusso lì :-).
whuber

"a meno che non si usi un piano degenerato prima". Bene, questo è un caso speciale interessante a cui pensare, no?
user56834

Inoltre, la sua domanda è se teoricamente coinciderebbero in determinate condizioni, non se gli stimatori utilizzati nella pratica coincidono.
user56834

3

Questa non è una risposta completa, ma mentre questi due aspetto 's molto simili, sono fondamentalmente diversi in modo: i minimizza Bayesiano uno l'espressione rispetto ad un singolo valore (cioè, il valore di x ( y ) , a seconda di y ).argminx^(y)y

Ma il frequentista deve minimizzare la funzione di perdita rispetto a un singolo valore per ogni valore che potrebbe assumere, senza conoscere x . Questo perché il minimo della funzione f ( x , x ) = E ( L ( x - x ( Y ) ) | x ) dipende da x , anche se dobbiamo ridurre al minimo senza sapere x . (Si noti che se avremmo semplicemente minimizzare f ( x , x )xxf(x,x^)=E(L(xx^(Y))|x)xxf(x,x^) WRTx^x^=x


1
Punti buoni. Penso che tu abbia ragione sul problema frequentista. Il modo per renderlo ben posizionato è limitare la classe di stimatori. Da Lehmann & Casella: "Finora ci siamo preoccupati di trovare stimatori che minimizzino il rischio R (θ, δ) per ogni valore di θ. Ciò è stato possibile solo limitando la classe di stimatori da considerare in base a un requisito di imparzialità tale come imparzialità o equivalenza ".
Patrick,

1

Potrebbe non esserci alcuna risposta a questa domanda.

Un'alternativa potrebbe essere quella di richiedere metodi per determinare le due stime in modo efficiente per qualsiasi problema attuale. I metodi bayesiani sono abbastanza vicini a questo ideale. Tuttavia, anche se i metodi minimax potrebbero essere utilizzati per determinare la stima del punto frequentista, in generale, l'applicazione del metodo minimax rimane difficile e tende a non essere utilizzata nella pratica.

Un'altra alternativa sarebbe quella di riformulare la domanda in merito alle condizioni in base alle quali gli stimatori bayesiani e frequentisti forniscono risultati "coerenti" e cercano di identificare metodi per calcolare in modo efficiente quegli stimatori. Qui "coerenza" implica che gli stimatori bayesiani e frequentisti siano derivati ​​da una teoria comune e che lo stesso criterio di ottimalità sia usato per entrambi gli stimatori. Ciò è molto diverso dal tentativo di opporsi alle statistiche bayesiane e frequentiste e può rendere superflua la domanda di cui sopra. Un possibile approccio è quello di puntare, sia per il caso frequentista che per il caso bayesiano, a set di decisioni che minimizzano la perdita per una data dimensione, cioè, come proposto da

Schafer, Chad M e Philip B Stark. "Costruire regioni di fiducia di dimensioni attese ottimali." Journal of American Statistical Association 104.487 (2009): 1080-1089.

Si scopre che ciò è possibile - sia per il caso frequentista che per quello bayesiano - includendo per preferenza osservazioni e parametri con grandi informazioni reciproche puntuali. Le decisioni non saranno identiche, poiché la domanda posta è diversa:

  • Indipendentemente da quale sia il vero parametro, limitare il rischio di prendere decisioni sbagliate (l'opinione del frequentatore)
  • Date alcune osservazioni, limitare il rischio di includere parametri errati nel set decisionale (vista bayesiana)

Tuttavia, i set si sovrapporranno ampiamente e diventeranno identici in alcune situazioni, se si utilizzano priori piatti. L'idea è discussa in modo più dettagliato insieme a un'efficace attuazione

Bartels, Christian (2015): fiducia generica e coerente e regioni credibili. figshare. https://doi.org/10.6084/m9.figshare.1528163

Per i priori informativi, gli insiemi di decisioni si discostano di più (come è comunemente noto ed è stato sottolineato nella domanda e nelle risposte sopra). Tuttavia, nel quadro coerente, si ottengono test per frequentisti, che garantiscono la copertura frequentista desiderata, ma tengono conto delle conoscenze precedenti.

Bartels, Christian (2017): utilizzo delle conoscenze pregresse nei test frequentisti. figshare. https://doi.org/10.6084/m9.figshare.4819597

I metodi proposti mancano ancora di un'efficace attuazione della marginalizzazione.


Potresti elaborare la tua domanda in modo più specifico quando sarebbero "coerenti"?
user56834

@ Programmer2134. Grazie, ho cercato di chiarire la risposta.
user36160
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.