L'errore al quadrato medio viene utilizzato per valutare la superiorità relativa di uno stimatore rispetto a un altro?


13

Supponiamo di avere due stimatori e α 2 per alcuni parametri x . Per determinare quale stimatore è "migliore", osserviamo l'MSE (errore quadratico medio)? In altre parole, osserviamo M S E = β 2 + σ 2 dove β è il bias dello stimatore e σ 2 è la varianza dello stimatore? Qualunque abbia un MSE maggiore è uno stimatore peggiore?α1α2x

MSE=β2+σ2
βσ2

Risposte:


10

Se avete due stimatori concorrenti θ 1 e θ 2 , anche M S E ( θ 1 ) < M S E ( θ 2 ) vi dice che θ 1 è lo stimatore migliore dipende interamente dalla vostra definizione di "migliore". Ad esempio, se si confrontano stimatori e "migliore" vuoi dire ha varianza minore, allora, sì, questo implicherebbe che θ 1 è meglio. M S Eθ^1θ^2

MSE(θ^1)<MSE(θ^2)
θ^1θ^1MSEè un criterio popolare a causa della sua connessione con i minimi quadrati e la verosimiglianza gaussiana ma, come molti criteri statistici, si dovrebbe essere avvertiti dall'utilizzare ciecamente come misura della qualità dello stimatore senza prestare attenzione all'applicazione.MSE

Ci sono alcune situazioni in cui la scelta di uno stimatore per minimizzare potrebbe non essere una cosa particolarmente sensata da fare. Mi vengono in mente due scenari:MSE

  • Se in un set di dati ci sono valori anomali molto grandi, questi possono influenzare drasticamente l'MSE e quindi lo stimatore che minimizza l'MSE può essere indebitamente influenzato da tali valori anomali. In tali situazioni, il fatto che uno stimatore minimizzi l'MSE non ti dice molto poiché, se hai rimosso i valori anomali, puoi ottenere una stima molto diversa. In tal senso, l'MSE non è "robusto" per gli outlier. Nel contesto della regressione, questo fatto è ciò che ha motivato lo stimatore M Huber (che discuterò in questa risposta), che minimizza una diversa funzione di criterio (che è una miscela tra errore al quadrato ed errore assoluto) quando ci sono errori a coda lunga .

  • MSEσ2MSEσ4MSEσ4

MSE

X1,...,Xntν>2ν/(ν2)

θ^1:the unbiased sample variance
θ^2=0, regardless of the data
MSE(θ^2)=ν2(ν2)2
MSE(θ^1)={if ν4ν2(ν2)2(2n1+6n(ν4))if ν>4.
tMSEν<4(2n1+6n(ν4))>1tθ^2MSEθ^1

MSEMSEθ^

S(θ^)=θ^ν/(ν2)1log(θ^ν/(ν2))

S(θ^1)=


(+1) Bella discussione. Ad essere onesti, probabilmente dovrebbe essere sottolineato che argomenti simili possono essere fatti valere a favore e contro altri criteri (altre funzioni di perdita).
Martedì

2
Di solito, si valutano gli stimatori osservando le loro funzioni di rischio, che tracciano la perdita attesa rispetto ai parametri. Qui, correggendo i parametri, potresti aver prodotto un'analisi fuorviante. Dopotutto, è sempre il caso che uno stimatore stupido (costante, ignorante dei dati) possa produrre una perdita attesa molto bassa: basta impostarlo uguale al parametro corretto! Questo mi lascia chiedendomi cosa la simulazione abbia davvero mostrato qui.
whuber

@whuber, ho modificato questa risposta per dare l'esempio analiticamente, il che forse lo rende più chiaro. Ho anche offerto una funzione di perdita alternativa che potrebbe essere più appropriata.
Macro,

ν

2

L(αio)=(αio-α)2. La funzione di perdita degli errori al quadrato è molto popolare ma solo una delle tante. La procedura descritta è corretta in caso di perdita quadrata dell'errore; la domanda è se questo è appropriato nel tuo problema o no.


2

Perché la funzione f(X)=X2è differenziabile, facilita la ricerca dell'MSE minimo sia dal punto di vista teorico che numerico. Ad esempio, nei minimi quadrati ordinari è possibile risolvere esplicitamente la pendenza e l'intercettazione adattate. Da un punto di vista numerico, hai risolutori più efficienti anche quando hai un derivato.

A mio avviso, l'errore quadratico medio in genere sovrastima i valori anomali. Questo è il motivo per cui è spesso più robusto utilizzare l'errore assoluto medio, ovvero l'usof(X)=|X|come funzione di errore. Tuttavia, poiché non è differenziabile, rende le soluzioni più difficili con cui lavorare.

MSE è probabilmente una buona scelta se i termini di errore sono normalmente distribuiti. Se hanno code più larghe, è preferibile una scelta più solida come il valore assoluto.


0

In Case & Berger Statistical Inference 2nd edition Pagina 332 afferma che MSE penalizza equamente per sovrastima e sottovalutazione, il che va bene nel caso della localizzazione. Nel caso della scala, tuttavia, 0 è un limite inferiore naturale, quindi il problema di stima non è simmetrico. L'uso dell'MSE in questo caso tende a perdonare la sottovalutazione.

Potresti voler controllare quale stimatore soddisfa le proprietà UMVUE, il che significa che usa il limite inferiore di Cramer-Rao. Pagina 341.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.