In che modo uno stimatore che minimizza una somma ponderata di distorsioni quadrate e varianza si adatta alla teoria delle decisioni?


10

Okay - il mio messaggio originale non è riuscito a ottenere una risposta; quindi, lasciami porre la domanda in modo diverso. Inizierò spiegando la mia comprensione della stima da una prospettiva teorica decisionale. Non ho una formazione formale e non mi sorprenderebbe se il mio pensiero fosse in qualche modo imperfetto.

Supponiamo di avere una funzione di perdita . La perdita attesa è il rischio (frequentista):L(θ,θ^(x))

R(θ,θ^(x))=L(θ,θ^(x))L(θ,θ^(x))dx,

dove è la probabilità; e il rischio di Bayes è il rischio frequentista atteso:L(θ,θ^(x))

r(θ,θ^(x))=R(θ,θ^(x))π(θ)dxdθ,

dove π(θ) è il nostro priore.

In generale, troviamo θ^(x) che minimizza r e tutto questo funziona bene; inoltre si applica il teorema di Fubini e possiamo invertire l'ordine di integrazione in modo che ogni dato θ^(x) che minimizza r sia indipendente da tutti gli altri. In questo modo il principio di verosimiglianza non viene violato e possiamo sentirci bene con l'essere bayesiani e così via.

Ad esempio, data la familiare perdita di errore quadrata, nostro rischio di frequentatore è l'errore quadratico medio o la somma di polarizzazione e varianza quadrate e il rischio di Bayes è la somma prevista di polarizzazione e varianza quadrate data la nostra precedente, ovvero la perdita attesa a posteriori.L(θ,θ^(x))=(θθ^(x))2,

Questo mi sembra sensato finora (anche se potrei essere abbastanza sbagliato); ma, in ogni caso, le cose hanno molto meno senso per me per alcuni altri obiettivi. Ad esempio, supponiamo che invece di minimizzare la somma dei equamente ponderato polarizzazione quadrata e varianza, voglio minimizzare una disuguale-pesata somma - cioè, voglio il che minimizzano:θ^(x)

(E[θ^(x)]θ)2+kE[(θ^(x)E[θ^(x)])2],

dove è una costante reale positiva (diversa da 1).k

In genere mi riferisco a una somma come questa come "funzione oggettiva", anche se può darsi che stia usando quel termine in modo errato. La mia domanda non è su come trovare una soluzione - trovare che minimizzi questa funzione oggettiva è realizzabile numericamente - piuttosto, la mia domanda è duplice:θ^(x)

  1. Una funzione così oggettiva può rientrare nel paradigma della teoria delle decisioni? In caso contrario, esiste un altro framework in cui si adatta? Se si, come mai? Sembra che la funzione di perdita associata sarebbe una funzione di , e , che - a causa delle aspettative - è ( Penso) non corretto.θ ( x ) E [ θ ( x ) ]θθ^(x)E[θ^(x)]

  2. Una tale funzione oggettiva viola il principio di probabilità perché una determinata stima dipende da tutte le altre stime di (anche ipotetiche). Tuttavia, ci sono occasioni in cui è auspicabile un aumento della varianza degli errori per una riduzione della distorsione. Dato un tale obiettivo, esiste un modo per concettualizzare il problema in modo tale che sia conforme al principio di probabilità? θ (xij)θ^(xj)θ^(xij)

Suppongo di non aver capito alcuni concetti fondamentali sulla teoria delle decisioni / stima / ottimizzazione. Grazie in anticipo per qualsiasi risposta e, per favore, supponiamo che io non sappia nulla poiché non ho una formazione in questo settore o matematica più in generale. Inoltre, sono apprezzati tutti i riferimenti suggeriti (per il lettore ingenuo).

Risposte:


2

Questa è una domanda abbastanza interessante e nuova! A livello formale, usando la funzione di rischio frequentista significa usare (per esempio) la funzione di perdita definita come da non c'è motivo di proibire che aspettative come appaiano in una funzione di perdita. Il fatto che dipendano dall'intera distribuzione di è una caratteristica che può sembrare strana, ma l'intera distribuzione è impostata in funzione di e la perdita risultante è quindi una funzione diL ( θ , θ ) = ( E θ [ θ ( X ) ] - θ ) 2 +

(Eθ[θ^(X)]θ)2+kEθ[(θ^(X)E[θ^(X)])2],
E θ [ θ ( X ) ] θ ( X ) θ θ θ θ ( X )
L(θ,θ^)=(Eθ[θ^(X)]θ)2+k(θ^Eθ[θ^(X)])2
Eθ[θ^(X)]θ^(X)θθ , e la distribuzione di .θ^θ^(X)

Posso perfettamente prevedere un'obiezione che una funzione di perdita è in linea di principio una funzione di uno stato di natura, e di un'azione , che si svolge ad esempio nello spazio dei parametri , quindi non implica alcuna ipotesi distributiva. Che è corretto dal punto di vista della teoria dei giochi. Ma dato che questa è una teoria delle decisioni statistiche, in cui una decisione dipenderà dall'osservazione di una variabile casuale , non vedo alcun motivo per cui la generalizzazione in cui la funzione di perdita dipende dalla distribuzione di , indicizzata daθ δ Θ δ x X X θL(θ,δ)θδΘδxXXθ, non può essere considerato. Il fatto che possa violare il principio di verosimiglianza non riguarda direttamente la teoria delle decisioni e non impedisce la derivazione formale di uno stimatore di Bayes.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.