Un problema sulla stimabilità dei parametri


13

Sia e quattro variabili casuali tali che , dove sono parametri sconosciuti. Supponi anche che ,Allora quale è vero?Y1,Y2,Y3Y4E(Y1)=θ1θ3;  E(Y2)=θ1+θ2θ3;  E(Y3)=θ1θ3;  E(Y4)=θ1θ2θ3θ1,θ2,θ3Var(Yi)=σ2i=1,2,3,4.

A. sono stimabili.θ1,θ2,θ3

B. è stimabile.θ1+θ3

C. è stimabile e è la migliore stima imparziale lineare di .θ1θ312(Y1+Y3)θ1θ3

D. è stimabile.θ2

La risposta è C è che mi sembra strano (perché ho D).

Perché ho D? Da allora, .E(Y2Y4)=2θ2

Perché non capisco che C potrebbe essere una risposta? Ok, posso vedere, è uno stimatore imparziale di e la sua "varianza è inferiore a .Y1+Y2+Y3+Y44θ1θ3Y1+Y32

Per favore, dimmi dove sto sbagliando.

Anche pubblicato qui: /math/2568894/a-problem-on-estimability-of-parameters


1
Metti il self-studytag o qualcuno verrà e chiudi la tua domanda.
Carl,

@Carl è fatto ma perché?
Stat_prob_001,

Sono le regole del sito, non le mie regole, le regole del sito.
Carl,

È Y1Y3 ?
Carl,

1
@Carl puoi pensare in questo modo: Y1=θ1θ3+ϵ1 dove ϵ1 è un camper con media 0 e varianza σ2 . E, Y3=θ1θ3+ϵ3 dove ϵ3 è un camper con media 0 e varianza σ2
Stat_prob_001

Risposte:


8

Questa risposta sottolinea la verifica della stimabilità. La proprietà varianza minima è di mia considerazione secondaria.

Per cominciare, riassumi le informazioni in termini di forma matriciale di un modello lineare come segue:

(1)Y:=[Y1Y2Y3Y4]=[101111101111][θ1θ2θ3]+[ε1ε2ε3ε4]:=Xβ+ε,
doveE(ε)=0,Var(ε)=σ2I(per discutere di stimabilità, l'assunzione di sferità non è necessaria. Ma per discutere della proprietà di Gauss-Markov, dobbiamo assumere la sferità diε).

Se la matrice disegno è di rango pieno, allora il parametro originale β ammette un unico minimi quadrati Stima β = ( X ' X ) - 1 X ' Y . Di conseguenza, qualsiasi parametro φ , definita come una funzione lineare φ ( β ) di β è stimabili nel senso che può essere univocamente stimata dati tramite i minimi quadrati stimare β come φ = p ' β .Xββ^=(XX)1XYϕϕ(β)ββ^ϕ^=pβ^

La sottigliezza sorge quando non è al massimo. Per avere una discussione approfondita, fissiamo alcune notazioni e termini prima di seguito (seguo la convenzione di The Free-Coordinate Free Approach to Linear Models , Sezione 4.8. Alcuni termini sembrano inutilmente tecnici). Inoltre, la discussione si applica al modello lineare generale Y = X β + ε con X R n × k e β R k .XY=Xβ+εXRn×kβRk

  1. Una varietà di regressione è la raccolta di vettori medi poiché varia su R k : M = { X β : β R k } .βRk
    M={Xβ:βRk}.
  2. Una funzione parametrica è una funzione lineare di β , ϕ ( β ) = p β = p 1 β 1 + + p k β k .ϕ=ϕ(β)β
    ϕ(β)=pβ=p1β1++pkβk.

Come accennato in precedenza, quando , non tutte le funzioni parametriche ϕ ( β ) sono stimabili. Ma, aspetta, qual è la definizione del termine stimabile tecnicamente? Sembra difficile dare una definizione chiara senza disturbare una piccola algebra lineare. Una definizione, che ritengo sia la più intuitiva, è la seguente (dallo stesso riferimento di cui sopra):rank(X)<kϕ(β)

Definizione 1. Una funzione parametrica è stimabile se è determinata in modo univoco da X β nel senso che ϕ ( β 1 ) = ϕ ( β 2 ) ogni volta che β 1 , β 2R k soddisfa X β 1 = X β 2 .ϕ(β)Xβϕ(β1)=ϕ(β2)β1,β2RkXβ1=Xβ2

Interpretazione. La definizione di cui sopra stabilisce che la mappatura dal collettore di regressione allo spazio dei parametri di ϕ deve essere uno a uno, il che è garantito quando rank ( X ) = k (cioè, quando X stesso è uno a uno). Quando rango ( X ) < k , sappiamo che esiste β 1β 2 tale che X β 1 = X β 2Mϕrank(X)=kXrank(X)<kβ1β2Xβ1=Xβ2. La definizione stimabile sopra in effetti esclude quei funzionali parametrici carenti strutturali che danno loro stessi valori diversi anche con lo stesso valore su , che non hanno senso naturalmente. D'altra parte, una funzione parametrica stimabile ϕ ( ) consente il caso ϕ ( β 1 ) = ϕ ( β 2 ) con β 1β 2 , purché sia ​​soddisfatta la condizione X β 1 = X β 2 .Mϕ()ϕ(β1)=ϕ(β2)β1β2Xβ1=Xβ2

Esistono altre condizioni equivalenti per verificare la stimabilità di una funzione parametrica fornita nello stesso riferimento, Proposizione 8.4.

Dopo un'introduzione così dettagliata, torniamo alla tua domanda.

A. stesso non è stimabile per il motivo che rango ( X ) < 3 , che comporta X β 1 = X β 2 con β 1β 2 . Sebbene la definizione di cui sopra sia data per i funzionali scalari, è facilmente generalizzabile ai funzionali a valori vettoriali.βrank(X)<3Xβ1=Xβ2β1β2

B. non è stimabile. Per intenderci, considera β 1 = ( 0 , 1 , 0 ) e β 2 = ( 1 , 1 , 1 ) , che dà X β 1 = X β 2 ma ϕ 1ϕ1(β)=θ1+θ3=(1,0,1)ββ1=(0,1,0)β2=(1,1,1)Xβ1=Xβ2ϕ1(β1)=0+0=0ϕ1(β2)=1+1=2.

C. è stimabile. Perché X β 1 = X β 2 implica banalmente θ ( 1 ) 1 - θ ( 1 ) 3 = θ ( 2 ) 1 - θ ( 2 ) 3 , cioè, ϕϕ2(β)=θ1θ3=(1,0,1)βXβ1=Xβ2θ1(1)θ3(1)=θ1(2)θ3(2)ϕ2(β1)=ϕ2(β2).

D. ϕ3(β)=θ2=(0,1,0)β is also estimable. The derivation from Xβ1=Xβ2 to ϕ3(β1)=ϕ3(β2) is also trivial.

After the estimability is verified, there is a theorem (Proposition 8.16, same reference) claims the Gauss-Markov property of ϕ(β). Based on that theorem, the second part of option C is incorrect. The best linear unbiased estimate is Y¯=(Y1+Y2+Y3+Y4)/4, by the theorem below.

Theorem. Let ϕ(β)=pβ be an estimable parametric functional, then its best linear unbiased estimate (aka, Gauss-Markov estimate) is ϕ(β^) for any solution β^ to the normal equations XXβ^=XY.

The proof goes as follows:

Proof. Straightforward calculation shows that the normal equations is

[404020404]β^=[111101011111]Y,
which, after simplification, is
[ϕ(β^)θ^2/2ϕ(β^)]=[Y¯(Y2Y4)/4Y¯],
i.e., ϕ(β^)=Y¯.

Therefore, option D is the only correct answer.


Addendum: The connection of estimability and identifiability

When I was at school, a professor briefly mentioned that the estimability of the parametric functional ϕ corresponds to the model identifiability. I took this claim for granted then. However, the equivalance needs to be spelled out more explicitly.

According to A.C. Davison's monograph Statistical Models p.144,

Definition 2. A parametric model in which each parameter θ generates a different distribution is called identifiable.

For linear model (1), regardless the spherity condition Var(ε)=σ2I, it can be reformulated as

(2)E[Y]=Xβ,βRk.

It is such a simple model that we only specified the first moment form of the response vector Y. When rank(X)=k, model (2) is identifiable since β1β2 implies Xβ1Xβ2 (the word "distribution" in the original definition, naturally reduces to "mean" under model (2).).

Now suppose that rank(X)<k and a given parametric functional ϕ(β)=pβ, how do we reconcile Definition 1 and Definition 2?

Well, by manipulating notations and words, we can show that (the "proof" is rather trivial) the estimability of ϕ(β) is equivalent to that the model (2) is identifiable when it is parametrized with parameter ϕ=ϕ(β)=pβ (the design matrix X is likely to change accordingly). To prove, suppose ϕ(β) is estimable so that Xβ1=Xβ2 implies pβ1=pβ2, by definition, this is ϕ1=ϕ2, hence model (3) is identifiable when indexing with ϕ. Conversely, suppose model (3) is identifiable so that Xβ1=Xβ2 implies ϕ1=ϕ2, which is trivially ϕ1(β)=ϕ2(β).

Intuitively, when X is reduced-ranked, the model with β is parameter redundant (too many parameters) hence a non-redundant lower-dimensional reparametrization (which could consist of a collection of linear functionals) is possible. When is such new representation possible? The key is estimability.

To illustrate the above statements, let's reconsider your example. We have verified parametric functionals ϕ2(β)=θ1θ3 and ϕ3(β)=θ2 are estimable. Therefore, we can rewrite the model (1) in terms of the reparametrized parameter (ϕ2,ϕ3) as follows

E[Y]=[10111011][ϕ2ϕ3]=X~γ.

Clearly, since X~ is full-ranked, the model with the new parameter γ is identifiable.


If you need a proof for the second part of option C, I will supplement my answer.
Zhanxiong

2
thanks! for such a detailed answer. Now, about the second part of C: I know that "best" relates to minimum variance. So, why not 14(Y1+Y2+Y3+Y4) is not "best"?
Stat_prob_001

2
Oh, I don't know why I thought it is the estimator in C. Actually (Y1+Y2+Y3+Y4)/4 is the best estimator. Will edit my answer
Zhanxiong

6

Apply the definitions.

I will provide details to demonstrate how you can use elementary techniques: you don't need to know any special theorems about estimation, nor will it be necessary to assume anything about the (marginal) distributions of the Yi. We will need to supply one missing assumption about the moments of their joint distribution.

Definitions

All linear estimates are of the form

tλ(Y)=i=14λiYi
for constants λ=(λi).

An estimator of θ1θ3 is unbiased if and only if its expectation is θ1θ3. By linearity of expectation,

θ1θ3=E[tλ(Y)]=i=14λiE[Yi]=λ1(θ1θ3)+λ2(θ1+θ2θ3)+λ3(θ1θ3)+λ4(θ1θ2θ3)=(λ1+λ2+λ3+λ4)(θ1θ3)+(λ2λ4)θ2.

Comparing coefficients of the unknown quantities θi reveals

(1)λ2λ4=0 and λ1+λ2+λ3+λ4=1.

In the context of linear unbiased estimation, "best" always means with least variance. The variance of tλ is

Var(tλ)=i=14λi2Var(Yi)+ij4λiλjCov(Yi,Yj).

The only way to make progress is to add an assumption about the covariances: most likely, the question intended to stipulate they are all zero. (This does not imply the Yi are independent. Furthermore, the problem can be solved by making any assumption that stipulates those covariances up to a common multiplicative constant. The solution depends on the covariance structure.)

Since Var(Yi)=σ2, we obtain

(2)Var(tλ)=σ2(λ12+λ22+λ32+λ42).

The problem therefore is to minimize (2) subject to constraints (1).

Solution

The constraints (1) permit us to express all the λi in terms of just two linear combinations of them. Let u=λ1λ3 and v=λ1+λ3 (which are linearly independent). These determine λ1 and λ3 while the constraints determine λ2 and λ4. All we have to do is minimize (2), which can be written

σ2(λ12+λ22+λ32+λ42)=σ24(2u2+(2v1)2+1).

No constraints apply to (u,v). Assume σ20 (so that the variables aren't just constants). Since u2 and (2v1)2 are smallest only when u=2v1=0, it is now obvious that the unique solution is

λ=(λ1,λ2,λ3,λ4)=(1/4,1/4,1/4,1/4).

Option (C) is false because it does not give the best unbiased linear estimator. Option (D), although it doesn't give full information, nevertheless is correct, because

θ2=E[t(0,1/2,0,1/2)(Y)]

is the expectation of a linear estimator.

It is easy to see that neither (A) nor (B) can be correct, because the space of expectations of linear estimators is generated by {θ2,θ1θ3} and none of θ1,θ3, or θ1+θ3 are in that space.

Consequently (D) is the unique correct answer.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.