Perché la definizione di uno stimatore coerente è così com'è? Che dire delle definizioni alternative di coerenza?


14

Citazione da Wikipedia:

In statistica, uno stimatore coerente o uno stimatore asintoticamente coerente è uno stimatore - una regola per calcolare le stime di un parametro avendo la proprietà che quando il numero di punti dati utilizzati aumenta indefinitamente, la sequenza risultante di stime converge in probabilità a θ ^ * .θθθ

Per rendere precisa questa affermazione, sia θ il valore del parametro vero che si desidera stimare e sia θ^(Sn) la regola per la stima di questo parametro in funzione dei dati. Quindi la definizione di coerenza di uno stimatore può essere espressa nel modo seguente:

limnPr[|θ(Sn^)θ|ϵ]=0

la mia domanda sembra superficiale a prima vista ma è: perché la parola "coerenza / coerenza" è stata usata per descrivere questo comportamento di uno stimatore?

Il motivo per cui mi importa di questo è perché per me, intuitivamente, la parola coerente significa qualcosa di diverso (o almeno mi sembra diverso, forse possono essere mostrati uguali). Lascia che ti dica cosa significa per mezzo di un esempio. Dì che "tu" sei costantemente "buono" (per qualche definizione di bene), quindi coerente significa che ogni volta che hai la possibilità di dimostrare / mostrarmi che sei buono, davvero mi dimostri che sei buono, ogni volta (o almeno la maggior parte delle volte).

Consente di applicare la mia intuizione per definire la coerenza di uno stimatore. Lascia che "tu" sia la funzione informatica θ^ e che "buono" significhi quanto sei lontano dalla vera stima θ (buono, nel senso della norma l1 , perché no). Quindi una migliore definizione di coerenza sarebbe:

n,Sn,Pr[|θ(Sn^)θ|ϵ]<δ

Anche se potrebbe essere una definizione meno utile di coerenza, per me ha più senso il modo in cui definirei coerenza, perché per qualsiasi set di training / campione che passi al mio stimatore , sarò in grado di fare un buon lavoro, cioè farò costantemente bene. Sono consapevole che è un po 'irrealistico farlo per tutte le n (probabilmente impossibile), ma possiamo correggere questa definizione dicendo:θ^

n0,nn0,Sn,Pr[|θ(Sn^)θ|ϵ]<δ

cioè per n sufficientemente grande, il nostro stimatore non farà peggio di (cioè non più di lontano dalla "verità") dal vero (l' sta cercando di catturare l'intuizione di cui hai bisogno almeno un certo numero di esempi per imparare / stimare qualcosa, e una volta raggiunto quel numero, il tuo stimatore farà bene la maggior parte delle volte se è coerente nel modo in cui stiamo cercando di definirlo).ϵ θ ϵϵθn0

Tuttavia, la definizione precedente è troppo forte, forse potremmo permetterci di avere una bassa probabilità di essere lontani da per la maggior parte degli insiemi di addestramento di dimensione (cioè non richiedere questo per tutti , ma oltre la distribuzione di o qualcosa del genere). Quindi avremo un errore elevato solo molto raramente per la maggior parte dei set di campioni / training che abbiamo. n n 0 S nθnn0SnSn

Ad ogni modo, la mia domanda è: queste definizioni proposte di "coerenza" sono effettivamente le stesse della definizione "ufficiale" di coerenza, ma è difficile provare l'equivalenza? Se conosci la prova per favore condividila! O il mio intuito è completamente spento e c'è un motivo più profondo per scegliere la coerenza della definizione nel modo in cui viene generalmente definita? Perché la coerenza ("ufficiale") è definita così com'è?

Alcuni dei miei pensieri su una prova del candidato per una sorta di equivalenza, o forse somiglianza tra la mia nozione di coerenza e la nozione accettata di coerenza potrebbero essere di svelare la definizione di un limite nella definizione ufficiale di coerenza usando il definizione di un limite. Tuttavia, non ero sicuro al 100% su come farlo e, anche se ci provassi, la definizione ufficiale di coerenza non sembra prendere in considerazione parlando di tutti i potenziali set di addestramento / campione. Dal momento che credo che siano equivalenti, la definizione ufficiale che ho fornito è incompleta (ovvero perché non parla dei set di dati che potremmo avere o di tutti i diversi set di dati che potrebbero generare i nostri set di campioni)?(ϵ,δ)

Uno dei miei ultimi pensieri è che qualsiasi definizione che forniamo dovrebbe anche essere precisa rispetto alla distribuzione di probabilità di cui parliamo, è o è . Penso che un candidato dovrebbe anche essere preciso se ciò che garantisce, se garantisce che sia scritto su una distribuzione fissa o su tutte le distribuzioni possibili sui set di addestramento ... giusto?PxPSn


3
(+1) Pensiero creativo. Grazie per averlo condiviso con noi. Credo che sarò in grado di fornire alcuni pensieri come risposta qui.
Alecos Papadopoulos,

2
La prima definizione è di scarsa utilità perché richiede che tutti gli stimatori siano estremamente precisi. La seconda non ha senso perché tenta di controllare una singola variabile logica con più quantificatori. n
whuber

Risposte:


9

Considera la seconda affermazione provvisoria del PO, leggermente modificata,

(1)θΘ,ϵ>0,δ>0,Sn,n0(θ,ϵ,δ):nn0,Pn[|θ^(Sn)θ|ϵ]<δ

Stiamo esaminando il limite nella sequenza di numeri reali { P n [ | Θ ( S n ) - θ * | ϵ ] }[0,1]

{Pn[|θ^(Sn)θ|ϵ]}

indicizzato da . Se questa sequenza ha un limite come , chiamalo semplicemente , lo avremon pnnp

(2)θΘ,ϵ>0,δ>0,Sn,n0(θ,ϵ,δ):nn0,|Pn[|θ(Sn^)θ|ϵ]p|<δ

Quindi se assumiamo (o richiediamo) , essenzialmente assumiamo (o richiediamo) che il limite come esiste ed è uguale a zero, .(1)np=0

Quindi legge "il limite di come è ". Qual è esattamente l'attuale definizione di coerenza (e sì, copre "tutti i possibili campioni")(1)Pn[|θ(Sn^)θ|ϵ]n0

Quindi sembra che l'OP abbia essenzialmente proposto un'espressione alternativa per la stessa proprietà esatta, e non per una proprietà diversa, dello stimatore.

ADDENDUM (dimenticato la parte storica)

Nelle sue "Fondamenti della teoria della probabilità" (1933), Kolmogorov menziona in una nota a piè di pagina che (il concetto di convergenza nella probabilità)

"... è dovuto a Bernoulli; il suo trattamento completamente generale è stato introdotto da EESlutsky".

(nel 1925). Il lavoro di Slutsky è in tedesco - potrebbe esserci persino un problema di come la parola tedesca è stata tradotta in inglese (o il termine usato da Bernoulli). Ma non provare a leggere troppo in una parola.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.