Qual è la giustificazione teorica delle decisioni per le procedure di intervallo credibili bayesiane?


20

(Per capire perché l'ho scritto, controlla i commenti sotto la mia risposta a questa domanda .)

Errori di tipo III e teoria delle decisioni statistiche

Dare la risposta giusta alla domanda sbagliata è talvolta chiamato errore di tipo III. La teoria delle decisioni statistiche è una formalizzazione del processo decisionale in condizioni di incertezza; fornisce un quadro concettuale che può aiutare a evitare errori di tipo III. L'elemento chiave del framework è chiamato funzione di perdita . Prende due argomenti: il primo è (il sottoinsieme rilevante di) il vero stato del mondo (ad esempio, nei problemi di stima dei parametri, il valore del parametro vero ); il secondo è un elemento dell'insieme di possibili azioni (ad esempio, nei problemi di stima dei parametri, la stimaθ )θθ^). L'output modella la perdita associata ad ogni possibile azione rispetto a ogni possibile vero stato del mondo. Ad esempio, nei problemi di stima dei parametri, alcune funzioni di perdita ben note sono:

  • la perdita di errore assolutaL(θ,θ^)=|θ-θ^|
  • la perdita di errore al quadratoL(θ,θ^)=(θ-θ^)2
  • Perdita LINEX di Hal VarianL(θ,θ^;K)=exp(K(θ-θ^))-K(θ-θ^)-1, K0

Esaminare la risposta per trovare la domanda

C'è un caso in cui si potrebbe tentare di evitare errori di tipo III concentrandosi sulla formulazione di una corretta funzione di perdita e procedendo attraverso il resto dell'approccio teorico-decisionale (non dettagliato qui). Questo non è il mio breve - dopo tutto, gli statistici sono ben equipaggiati con molte tecniche e metodi che funzionano bene anche se non derivano da un tale approccio. Ma il risultato finale, mi sembra, è che la stragrande maggioranza degli statistici non conosce e non si preoccupa della teoria delle decisioni statistiche, e penso che stiano perdendo. A questi statistici, direi che la ragione per cui potrebbero trovare utile la teoria della decisione statistica in termini di prevenzione dell'errore di tipo III è perché fornisce un quadro in cui chiedere qualsiasi procedura di analisi dei dati proposta:quale funzione di perdita (se presente) gestisce la procedura in modo ottimale? Cioè, in quale situazione decisionale, esattamente, fornisce la migliore risposta?

Perdita attesa posteriore

Da una prospettiva bayesiana, la funzione di perdita è tutto ciò di cui abbiamo bisogno. Possiamo praticamente saltare il resto della teoria delle decisioni - quasi per definizione, la cosa migliore da fare è minimizzare la perdita attesa posteriore, cioè trovare l'azione che minimizza \ tilde {L} (a) = \ int _ {\ Theta} L (\ theta, a) p (\ theta | D) d \ theta .˜ L ( a ) = Θ L ( θ , a ) p ( θ | D ) d θun'L~(a)=ΘL(θ,a)p(θ|D)dθ

(E per quanto riguarda le prospettive non bayesiane? Bene, è un teorema della teoria delle decisioni del frequentista - in particolare, il Teorema della classe completa di Wald - che l' azione ottimale sarà sempre quella di ridurre al minimo la perdita attesa bayesiana posteriore rispetto ad alcune (possibilmente impropria) La difficoltà con questo risultato è che si tratta di un teorema di esistenza che non fornisce indicazioni su quale prima dell'uso, ma limita in modo fruttuoso la classe di procedure che possiamo "invertire" per capire esattamente quale sia la domanda che siamo risposta. In particolare, il primo passo per invertire qualsiasi procedura non bayesiana è capire quale (se presente) procedura bayesiana si replica o si avvicina).

Ehi ciano, sai che questo è un sito di domande e risposte, giusto?

Il che mi porta - finalmente - a una domanda statistica. Nelle statistiche bayesiane, quando si forniscono stime di intervallo per i parametri univariati, due procedure di intervallo credibile comuni sono l'intervallo credibile basato sul quantile e l'intervallo credibile di densità posteriore più elevata. Quali sono le funzioni di perdita alla base di queste procedure?


Molto bella. Ma sono le uniche funzioni di perdita che giustificano queste procedure?
ospite

1
@Cyan >> Grazie per avermi chiesto e risposto alla domanda :) Leggerò tutto questo e voterò quando possibile.
Stéphane Laurent,

4
Interessante citazione della teoria delle decisioni statistiche di Berger e dell'analisi bayesiana : "non consideriamo gli insiemi credibili come aventi un chiaro ruolo teorico decisionale, e quindi siamo diffidenti nei confronti degli approcci di" ottimalità "alla selezione di un insieme credibile"
Simon Byrne,

1
@Simon Byrne >> 1985 è stato tanto tempo fa; Mi chiedo se lo pensi ancora.
Ciano

1
@Cyan: non lo so, ma la teoria delle decisioni è l'unica parte delle statistiche bayesiane che non è cambiata molto negli ultimi 27 anni (ci sono stati alcuni risultati interessanti, ma il libro di Berger è ancora il riferimento standard), specialmente rispetto alla popolarità minimax risulta in statistiche frequentiste.
Simon Byrne,

Risposte:


15

Nella stima dell'intervallo univariato, l'insieme delle azioni possibili è l'insieme delle coppie ordinate che specificano gli endpoint dell'intervallo. Lascia che un elemento di quell'insieme sia rappresentato da .(a,b), ab

Massimi intervalli di densità posteriore

Lascia che la densità posteriore sia . Gli intervalli di densità posteriore più elevati corrispondono alla funzione di perdita che penalizza un intervallo che non contiene il valore reale e penalizza anche gli intervalli in proporzione alla loro lunghezza:f(θ)

LHPD(θ,(a,b);k)=I(θ[a,b])+k(ba),0<kmaxθf(θ) ,

dove è la funzione indicatore . Questo dà la perdita posteriore previstaI()

L~HPD((a,b);k)=1Pr(aθb|D)+k(ba) .

L'impostazione di fornisce le condizioni necessarie per un ottimale locale all'interno dello spazio dei parametri: - esattamente la regola per gli intervalli HPD, come previsto.f(a)=f(b)=kaL~HPD=bL~HPD=0f(a)=f(b)=k

La forma di fornisce alcune informazioni sul perché gli intervalli HPD non sono invarianti a una trasformazione monotona crescente del parametro. L' intervallo HPD dello spazio trasformato nello spazio è diverso dall'intervallo HPD dello spazio perché i due intervalli corrispondono a diverse funzioni di perdita: l' intervallo HPD dello spazio corrisponde a una penalità di lunghezza trasformata .g(θ)θg(θ)g(θ)g(θ)k(g(b)-g(a))L~HPD((a,b);k)g(θ)θg(θ)g(θ)g(θ)k(g(b)g(un'))

Intervalli credibili basati su quantili

Considerare la stima puntuale con la funzione di perdita

Lq(θ,θ^;p)=p(θ^θ)I(θ<θ^)+(1p)(θθ^)I(θθ^), 0p1 .

La perdita attesa posteriore è

L~q(θ^;p)=p(θ^E(θ|θ<θ^,D))+(1p)(E(θ|θθ^,D)θ^) .

L'impostazione di produce l'equazione implicitaddθ^L~q=0

Pr(θ<θ^|D)=p ,

cioè, il ottimale è il % quantile della distribuzione posteriore, come previsto.θ^(100p)

Pertanto, per ottenere stime di intervallo basate sul quantile, la funzione di perdita è

LqCio(θ,(un',B);pL,pU)=Lq(θ,un';pL)+Lq(θ,B;pU) .


1
Un altro modo per motivare questo è riscrivere la funzione di perdita come una somma (ponderata) della larghezza dell'intervallo più la distanza, se presente, entro la quale l'intervallo non riesce a coprire il vero . θ
ospite

Esiste un altro modo di pensare agli intervalli basati sui quantili che non fanno riferimento direttamente ai quantili o alla lunghezza dell'intervallo. Speravo in qualcosa come "l'intervallo quantile massimizza / minimizza la media / minima / massima / ecc. Qualcosa-misura"
Rasmus Bååth

@ RasmusBååth, in pratica stai chiedendo "quali sono le condizioni necessarie sulla funzione di perdita per intervalli quantili per essere la soluzione alla minimizzazione della perdita attesa posteriore?" La mia intuizione, proprio dal modo in cui la matematica lavora in avanti, è che è praticamente così. Non l'ho provato, però.
Ciano,

Quindi non sono sicuro di una funzione di perdita, ma conosco una procedura che, a seconda della funzione di perdita di punto , comporterà un intervallo HPD o un intervallo quantile. Supponiamo di avere campioni casuali prelevati dal posteriore. 1. Selezionare il punto in con la perdita posteriore più bassa e aggiungere quel punto all'intervallo. 2. Rimuovere quel punto da , a causa di questa rimozione la perdita posteriore per i punti rimanenti in ora potrebbe cambiare (a seconda di ). 3. Sii felice se il tuo intervallo ha la copertura richiesta, altrimenti ripeti da (1). L = L0 dà HPD, L = L1 dà intervallo quantile. LSSSSL
Rasmus Bååth,

5
menzionando appena che la Sezione 5.5.3 di Bayesian Choice riguarda la derivazione basata sulla perdita di insiemi credibili ...
Xi'an,

1

Intervalli di dimensioni minime

Un'ovvia scelta di una funzione di perdita per la selezione degli intervalli (sia bayesiani che frequentisti) è quella di utilizzare la dimensione degli intervalli misurata in termini di distribuzioni marginali. Quindi, inizia con la proprietà desiderata o la funzione di perdita e ricava gli intervalli ottimali. Questo tende a non essere fatto, come è esemplificato dalla presente domanda, anche se è possibile. Per i set credibili bayesiani, ciò corrisponde a minimizzare la probabilità precedente dell'intervallo o a massimizzare la credenza relativa, ad esempio, come indicato in Evans (2016). La dimensione può anche essere utilizzata per selezionare i set di confidenza frequentista (Schafer 2009). I due approcci sono correlati e possono essere implementati abbastanza facilmente tramite regole di decisione che includevano preferibilmente decisioni con grandi informazioni reciproche puntuali (Bartels 2017).

Bartels, C., 2017. Utilizzo di conoscenze pregresse nei test per frequentisti. figshare. https://doi.org/10.6084/m9.figshare.4819597.v3

Evans, M., 2016. Misurare le prove statistiche usando la credenza relativa. Giornale di biotecnologia computazionale e strutturale, 14, pagg. 91-96.

Schafer, CM e Stark, PB, 2009. Costruzione di aree di confidenza di dimensioni attese ottimali. Journal of American Statistical Association, 104 (487), pagg. 1080-1089.


Vedo che stai citando Evans secondo il suggerimento di Keith O'Rourke ( andrewgelman.com/2016/07/17/… ). Mi piacciono molto le cose di Evans.
Ciano,

Sono molto contento di essere stato informato da Keith su un lavoro che inizia in modo diverso ma finisce con conclusioni simili! Importante citare questo.
user36160
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.