Quando uno stimatore distorto è preferibile a uno imparziale?


38

È ovvio molte volte perché si preferisce uno stimatore imparziale. Ma ci sono circostanze in cui potremmo effettivamente preferire uno stimatore distorto rispetto a uno imparziale?



12
In realtà non è ovvio per me perché si preferisca uno stimatore imparziale. La parzialità è come il boogeyman nei libri statistici, creando inutili paure tra gli studenti di statistica. In realtà l'approccio teorico dell'informazione all'apprendimento porta sempre a una stima distorta in piccoli campioni ed è coerente nel limite.
Cagdas Ozgenc,

4
Ho avuto clienti (specialmente in casi legali) che preferirebbero fortemente gli stimatori distorti, a condizione che il pregiudizio fosse sistematicamente a loro favore!
whuber

2
La Sezione 17.2 ("Stimatori non distorti") della teoria della probabilità di Jaynes : The Logic of Science è una discussione molto approfondita, con esempi, se il pregiudizio di uno stimatore è davvero o non è importante e perché uno preferibile può essere preferibile (in linea con la grande risposta di Chaconne di seguito).
pglpm,

1
Se riesco a sintetizzare la risposta di Chaconne-Jaynes: uno stimatore "imparziale" può errare a destra oa sinistra del valore vero con importi uguali; uno "di parte" può sbagliare più a destra che a sinistra o viceversa. Ma l'errore di quello imparziale, sebbene simmetrico, può essere molto più grande di quello di parte. Guarda la prima figura di Chaconne. In molte situazioni è molto più importante che uno stimatore abbia un piccolo errore, piuttosto che questo errore sia simmetrico.
pglpm,

Risposte:


51

Sì. Spesso siamo interessati a ridurre al minimo l'errore al quadrato medio, che può essere scomposto in varianza + bias al quadrato . Questa è un'idea estremamente fondamentale nell'apprendimento automatico e nelle statistiche in generale. Spesso vediamo che un piccolo aumento della distorsione può comportare una riduzione abbastanza grande della varianza che diminuisce l'MSE complessivo.

Un esempio standard è la regressione della cresta. Abbiamo β R = ( X T X + λ I ) - 1 X T Y , polarizzato; ma se X è mal condizionata quindi V a r ( β ) α ( X T X ) - 1 può essere mostruoso che V a r ( β R ) può essere molto più modesto.β^R=(XTX+λI)1XTYXVar(β^)(XTX)1Var(β^R)

Un altro esempio è il classificatore kNN . Pensa a : assegniamo un nuovo punto al vicino più vicino. Se abbiamo una tonnellata di dati e solo poche variabili possiamo probabilmente recuperare il vero limite di decisione e il nostro classificatore è imparziale; ma per ogni caso realistico, è probabile che k = 1 sia troppo flessibile (cioè abbia troppa varianza) e quindi il piccolo pregiudizio non ne valga la pena (cioè il MSE è più grande di classificatori più distorti ma meno variabili).k=1k=1

Infine, ecco una foto. Supponiamo che queste siano le distribuzioni campionarie di due stimatori e stiamo provando a stimare 0. Quello più piatto è imparziale, ma anche molto più variabile. Nel complesso penso che preferirei utilizzare quello di parte, perché anche se in media non avremo ragione, per ogni singola istanza di quello stimatore saremo più vicini.

polarizzazione varianza

 
Aggiornare

Cito i problemi numerici che si verificano quando è mal condizionato e come la regressione della cresta aiuta. Ecco un esempioX

Sto realizzando una matrice che è 4 × 3 e la terza colonna è quasi tutta 0, il che significa che non è quasi al livello completo, il che significa che X T X è molto vicino all'essere singolare.X4×3XTX

x <- cbind(0:3, 2:5, runif(4, -.001, .001)) ## almost reduced rank

> x
     [,1] [,2]        [,3]
[1,]    0    2 0.000624715
[2,]    1    3 0.000248889
[3,]    2    4 0.000226021
[4,]    3    5 0.000795289

(xtx <- t(x) %*% x) ## the inverse of this is proportional to Var(beta.hat)

           [,1]        [,2]        [,3]
[1,] 14.0000000 26.00000000 3.08680e-03
[2,] 26.0000000 54.00000000 6.87663e-03
[3,]  0.0030868  0.00687663 1.13579e-06

eigen(xtx)$values ## all eigenvalues > 0 so it is PD, but not by much

[1] 6.68024e+01 1.19756e+00 2.26161e-07


solve(xtx) ## huge values

           [,1]        [,2]        [,3]
[1,]   0.776238   -0.458945     669.057
[2,]  -0.458945    0.352219    -885.211
[3,] 669.057303 -885.210847 4421628.936

solve(xtx + .5 * diag(3)) ## very reasonable values

             [,1]         [,2]         [,3]
[1,]  0.477024087 -0.227571147  0.000184889
[2,] -0.227571147  0.126914719 -0.000340557
[3,]  0.000184889 -0.000340557  1.999998999

Aggiornamento 2

Come promesso, ecco un esempio più approfondito.

X1,...,Xn iid N(μ,σ2)μ

T1(X1,...,Xn)=X1μnμT1

T1T2(X1,...,Xn)=X1+X22Tn(X1,...,Xn)=X1+...+XnnVar(T1)=σ2Var(T2)=σ22Var(Tn)=σ2nn>2 Tn

TθMSE(T)=E((Tθ)2)MSE(T)=Var(T)+Bias(T)2Bias(T)=E(T)θ

TMSE(T)=Var(T)=Bias(T)2=Var(T)

Var(T)+Bias(T)2Bias(T)=0T

θT1T5T1T5T1T5θT1T5T3T1

VBtradeoff

Tλ(X,Y)=(XTX+λI)1XTYλTλ


L'immagine è l'unica che ho capito. Hai qualche esempio più semplice che corrisponde all'immagine? Quali stimatori avrebbero quelle forme?
Stan Shunpike,

Pubblicherò un esempio più dettagliato domani.
jld

@StanShunpike Ho aggiunto un lungo aggiornamento. Per favore fatemi sapere se questo aiuta a chiarire le cose.
jld

Probabilmente lo sforzo maggiore che qualcuno abbia mai fatto per rispondere a una delle mie domande. Molte grazie.
Stan Shunpike,

1
@olivia non riesco a pensare a un singolo caso non banale in cui il pregiudizio è l'unico criterio a cui tengo (anche se ci possono essere casi di cui non so nulla!), anche se ci sono momenti in cui è noto che il pregiudizio essere un fattore dominante (si consideri REML, ad esempio, in cui la distorsione è abbastanza grave da valere la pena fare qualcosa). Penso che qualunque cosa tu stia facendo, vuoi solo che il tuo unico stimatore sia vicino alla verità, ed è quello che fa MSE.
jld

2

Due motivi vengono in mente, a parte la spiegazione MSE sopra (la risposta comunemente accettata alla domanda):

  • Gestire il rischio
  • Test efficienti

T(X)=X¯nX¯nϵθ0θnsul limite della palla, diventa un test incoerente, non sa mai cosa sta succedendo e il rischio esplode.

Γ(α,βn)

Tθ(X)=XiI(Xi<θ)/I(Xi<θ)
butta sistematicamente gli alti punti di leva.

Test efficienti significa che non stimare ciò che ti interessa, ma una sua approssimazione, perché questo fornisce un test più potente. Il miglior esempio che mi viene in mente qui è la regressione logistica. Le persone sempreconfondere la regressione logistica con la regressione del rischio relativo. Ad esempio, un odds ratio di 1,6 per il cancro che confronta i fumatori con i non fumatori NON significa che "i fumatori avevano un rischio maggiore di cancro di 1,6". BZZT sbagliato. Questo è un rapporto di rischio. Tecnicamente avevano una probabilità di 1,6 volte del risultato (promemoria: probabilità = probabilità / (1 probabilità)). Tuttavia, per eventi rari, il rapporto di probabilità si avvicina al rapporto di rischio. C'è una regressione del rischio relativo, ma ha molti problemi con la convergenza e non è potente come la regressione logistica. Quindi riportiamo l'OR come una stima distorta della RR (per eventi rari) e calcoliamo CI e valori p più efficienti.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.