Se il restringimento viene applicato in modo intelligente, funziona sempre meglio per stimatori più efficienti?


11

Supponiamo di avere due stimatori e che sono stimatori coerenti dello stesso parametro e tali che con in senso psd. Pertanto, asintoticamente è più efficiente di . Questi due stimatori si basano su diverse funzioni di perdita. β 2β0β^1β^2β0

n(β^1β0)dN(0,V1),n(β^2β0)dN(0,V2)
β 1 β 2V1V2β^1β^2

Ora voglio cercare alcune tecniche di restringimento per migliorare le proprietà del campione finito dei miei stimatori.

Supponiamo di aver trovato una tecnica di restringimento che migliora lo stimatore in un campione finito e mi dà il valore di MSE pari a . Ciò implica che posso trovare una tecnica di restringimento adatta da applicare a che mi darà il MSE non superiore a ? γ 2 β 1β^2γ^2β^1 γ^2

In altre parole, se il restringimento viene applicato in modo intelligente, funziona sempre meglio per stimatori più efficienti?

Risposte:


4

Consentitemi di suggerire un controesempio, certamente leggermente noioso. Dì che non è solo asintoticamente più efficiente di , ma ottiene anche il Cramer Rao Lower Bound. Una tecnica di restringimento intelligente per sarebbe: con . La varianza asintotica di è dove l'ultima uguaglianza usa il Lemma nel documento di Hausman . abbiamo β 2β^1β^2 β * 2 =w β 2+(1-w) β 1w(0,1) β * 2 V*=Avunar(w β 2+(1-w) β 1)=β^2

β^2=wβ^2+(1w)β^1
w(0,1)β^2V 2 - V * = V 2 ( 1 - w 2 ) - V 1 ( 1 - w 2 ) 0 β 2
V=Avar(wβ^2+(1w)β^1)=Avar(w(β^2β^1)+β^1)=V1+w2(V2V1)
V2V=V2(1w2)V1(1w2)0
quindi c'è un miglioramento del rischio asintotico (non ci sono termini di bias). Quindi abbiamo trovato una tecnica di restringimento che offre alcuni miglioramenti asintotici (e quindi, si spera, un campione finito) rispetto a . Tuttavia, non esiste uno stimatore di contrazione simile che segue questa procedura.β^2β^1

Il punto qui ovviamente è che il restringimento viene effettuato verso lo stimatore efficiente e quindi non è applicabile allo stimatore efficiente stesso. Questo sembra abbastanza ovvio a un livello elevato, ma immagino che in un esempio specifico ciò non sia così ovvio (lo stimatore MLE e Method of Moments per la distribuzione uniforme potrebbe essere un esempio?).


1
Grazie per l'interessante esempio! (+1) Tuttavia, non è chiaro per me che questo dovrebbe essere considerato un contro esempio: è sia asintotico che non mostra che non può essere migliorato per avere lo stesso rischio o meno. (In effetti, il tuo ha automaticamente, nella migliore delle ipotesi, lo stesso rischio di .) Per fornire un controesempio, il rischio di uno stimatore modificato dovrà essere inferiore al rischio di e non è chiaro che ciò sia possibile con questo schema. β^1β^2β^1β^2β^1
user795305,

Grazie e punti presi. Vorrei tuttavia sottolineare che in nessun punto della domanda è stato specificato che l'MSE del avrebbe dovuto essere inferiore a quello di . Quindi è una tecnica di contrazione valida in questo contesto. Ma sono d'accordo che questa è solo una risposta parziale e non vedo l'ora di vedere cosa hanno da dire gli altri su questa domanda. β^2β^1β^2
Matthias Schmidtblaicher,

1
Nel paragrafo che inizia "Supponiamo di aver trovato ...", l'OP sembra specificarlo. Sto fraintendendo? Di seguito, lasciate che le stelle denotino gli stimatori modificati in modo che per alcune funzioni (forse di restringimento) . Supponiamo di trovare modo che . Nel paragrafo di riferimento, OP chiede se possiamo trovare alcuni modo che . fj β *β^j=fj(β^j)fjβ^2risk(β^2)risk(β^2)f1risk(β^1)risk(β^2)
user795305,

Vedo. Se questa è la domanda, è semplicemente l'identità e la risposta è affermativa nell'esempio. Ho letto la domanda come "Se riusciamo a trovare una funzione modo che il , ci fa esiste una modo tale che il ? " f1f(β,x)risk(f(β^2,x))<risk(β^2)g(β,x)risk(g(β^1,x))<risk(β^1)
Matthias Schmidtblaicher,

1
grazie per aver condiviso questi crediti, anche se in realtà non ho risposto alla tua domanda ...
Matthias Schmidtblaicher,

-2

Questa è una domanda interessante in cui desidero sottolineare prima alcuni punti salienti.

  • Due stimatori sono coerenti
  • β^1 è più efficiente di poiché ottiene meno variazioniβ^2
  • Le funzioni di perdita non sono le stesse
  • un metodo di restringimento viene applicato a uno in modo da ridurre la variazione che da sola finisce per essere uno stimatore migliore
  • Domanda : in altre parole, se il restringimento viene applicato in modo intelligente, funziona sempre meglio per stimatori più efficienti?

Fondamentalmente, è possibile migliorare uno stimatore in un determinato quadro, come una classe imparziale di stimatori. Tuttavia, come indicato da te, diverse funzioni di perdita rendono la situazione difficile in quanto una funzione di perdita può minimizzare la perdita quadratica e l'altra minimizza l'entropia. Inoltre, usare la parola "sempre" è molto complicato poiché se uno stimatore è il migliore della classe, non è possibile rivendicare uno stimatore migliore, logicamente parlando.

Per un semplice esempio (nello stesso framework), si considerino due stimatori, ovvero un Bridge (regressione penalizzata con norma ) e Lazo (verosimiglianza con la prima norma penalizzata) e un insieme sparso di parametri, ovvero , un modello lineare , normalità del termine di errore, , noto , funzione di perdita quadratica (errori minimi quadrati) e indipendenza delle covariate in . Scegliamo per per il primo stimatore e per il secondo stimatore. Quindi è possibile migliorare gli stimatori scegliendolpβy=xβ+eeN(0,σ2<)σxlpp=3p=2p1che finisce per stimare meglio con una varianza più bassa. Quindi in questo esempio c'è la possibilità di migliorare lo stimatore.

Quindi la mia risposta alla tua domanda è sì, dato che assumi la stessa famiglia di stimatori e la stessa funzione di perdita, nonché ipotesi.


non mi è chiaro cosa intendi per prendere . Dati due stimatori (diciamo, dall'avere e nella regolarizzazione dei minimi quadrati , come discuterete nella vostra risposta), la domanda chiede come postprocedere questi stimatori (tramite, diciamo, il restringimento). In particolare, chiede se esistono metodi in grado di produrre un miglioramento simile (in termini di MSE) attraverso stimatori coerenti e asintoticamente normali. Non è chiaro per me cosa dovrebbe trasmettere la tua risposta in merito. p1p=3p=2p
user795305

@Ben Grazie. la domanda riguarda il restringimento e ho cercato di fare un semplice esempio in cui si applica il restringimento imponendo una norma allo stimatore. Lo vedo abbastanza correlato. PS: LASSO ( norma penalizzata con verosimiglianza) sta per Operatore di ritiro e selezione minimi assolutolpl1
TPArrow,

Non è ancora molto chiaro per me. Stai proponendo di prendere le stime iniziali e e quindi valutare l' operatore prossimale , in modo che le nuove stime siano , per ? In tal caso, potresti fornire una prova (o qualche altro argomento) per i tuoi reclami in merito al miglioramento di MSE? Ho cercato di enfatizzare in precedenza che la domanda si pone sugli stimatori di post-elaborazione : quali sono esattamente le tue stime per la post elaborazione di ? β 2p α p j =argminαα - β j 2 2 +λαpβ^1β^2pα^jp=argminααβ^j22+λαpp = 2 , 3j{1,2}p=2,3
user795305

grazie @Ben, penso che non abbiamo un consenso nella definizione di restringimento. Lo prendi come un post-processo ma io come elaborazione in linea. Penso che abbiamo entrambi ragione, poiché la domanda non sta prendendo in considerazione il tipo di contrazione. PS: Immagino che cosa intendi per restringimento è come un limite duro.
TPA:

Il restringimento può essere sia in linea sia come post-elaborazione. Gli esempi che hai citato nella tua risposta riguardano il "restringimento in linea", mentre la domanda pone la domanda "restringimento post-elaborazione". Si noti che la domanda fornisce due stimatori e , quindi chiede una tecnica di restringimento da applicare a o . Penso che potrebbe valere la pena rileggere la domanda alla luce di ciò. β 2 β 1 β 2β^1β^2 β^1β^2
user795305,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.