(Per capire perché l'ho scritto, controlla i commenti sotto la mia risposta a questa domanda .)
Errori di tipo III e teoria delle decisioni statistiche
Dare la risposta giusta alla domanda sbagliata è talvolta chiamato errore di tipo III. La teoria delle decisioni statistiche è una formalizzazione del processo decisionale in condizioni di incertezza; fornisce un quadro concettuale che può aiutare a evitare errori di tipo III. L'elemento chiave del framework è chiamato funzione di perdita . Prende due argomenti: il primo è (il sottoinsieme rilevante di) il vero stato del mondo (ad esempio, nei problemi di stima dei parametri, il valore del parametro vero ); il secondo è un elemento dell'insieme di possibili azioni (ad esempio, nei problemi di stima dei parametri, la stimaθ ). L'output modella la perdita associata ad ogni possibile azione rispetto a ogni possibile vero stato del mondo. Ad esempio, nei problemi di stima dei parametri, alcune funzioni di perdita ben note sono:
- la perdita di errore assoluta
- la perdita di errore al quadrato
- Perdita LINEX di Hal Varian
Esaminare la risposta per trovare la domanda
C'è un caso in cui si potrebbe tentare di evitare errori di tipo III concentrandosi sulla formulazione di una corretta funzione di perdita e procedendo attraverso il resto dell'approccio teorico-decisionale (non dettagliato qui). Questo non è il mio breve - dopo tutto, gli statistici sono ben equipaggiati con molte tecniche e metodi che funzionano bene anche se non derivano da un tale approccio. Ma il risultato finale, mi sembra, è che la stragrande maggioranza degli statistici non conosce e non si preoccupa della teoria delle decisioni statistiche, e penso che stiano perdendo. A questi statistici, direi che la ragione per cui potrebbero trovare utile la teoria della decisione statistica in termini di prevenzione dell'errore di tipo III è perché fornisce un quadro in cui chiedere qualsiasi procedura di analisi dei dati proposta:quale funzione di perdita (se presente) gestisce la procedura in modo ottimale? Cioè, in quale situazione decisionale, esattamente, fornisce la migliore risposta?
Perdita attesa posteriore
Da una prospettiva bayesiana, la funzione di perdita è tutto ciò di cui abbiamo bisogno. Possiamo praticamente saltare il resto della teoria delle decisioni - quasi per definizione, la cosa migliore da fare è minimizzare la perdita attesa posteriore, cioè trovare l'azione che minimizza \ tilde {L} (a) = \ int _ {\ Theta} L (\ theta, a) p (\ theta | D) d \ theta .˜ L ( a ) = ∫ Θ L ( θ , a ) p ( θ | D ) d θ
(E per quanto riguarda le prospettive non bayesiane? Bene, è un teorema della teoria delle decisioni del frequentista - in particolare, il Teorema della classe completa di Wald - che l' azione ottimale sarà sempre quella di ridurre al minimo la perdita attesa bayesiana posteriore rispetto ad alcune (possibilmente impropria) La difficoltà con questo risultato è che si tratta di un teorema di esistenza che non fornisce indicazioni su quale prima dell'uso, ma limita in modo fruttuoso la classe di procedure che possiamo "invertire" per capire esattamente quale sia la domanda che siamo risposta. In particolare, il primo passo per invertire qualsiasi procedura non bayesiana è capire quale (se presente) procedura bayesiana si replica o si avvicina).
Ehi ciano, sai che questo è un sito di domande e risposte, giusto?
Il che mi porta - finalmente - a una domanda statistica. Nelle statistiche bayesiane, quando si forniscono stime di intervallo per i parametri univariati, due procedure di intervallo credibile comuni sono l'intervallo credibile basato sul quantile e l'intervallo credibile di densità posteriore più elevata. Quali sono le funzioni di perdita alla base di queste procedure?