Mentre studiavo la sufficienza mi sono imbattuto nella tua domanda perché volevo anche capire l'intuizione di Da quello che ho raccolto questo è quello che mi viene in mente (fammi sapere cosa ne pensi, se ho fatto degli errori, ecc.).
Sia X1,…,Xn un campione casuale da una distribuzione di Poisson con media .θ>0
Sappiamo che è una statistica sufficiente per θ , poiché la distribuzione condizionale di X 1 , … , X n dato T ( X ) è privo di θ , in altre parole, non dipende da θ .T(X)=∑ni=1XiθX1,…,XnT(X)θθ
Ora, lo statistico sa che X 1 , ... , X n i . io . d ~ P o i s s o n ( 4 ) e crea n = 400 valori casuali da questa distribuzione:A X1,…,Xn∼i.i.dPoisson(4)n=400
n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)
freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)
Per i valori che lo statistico ha creato, ne prende la somma e chiede allo statistico B quanto segue:AB
"Ho questi valori di esempio presi da una distribuzione di Poisson. Sapendo che ∑ n i = 1 x i = y = 4068 , cosa puoi dirmi di questa distribuzione?"x1,…,xn∑ni=1xi=y=4068
Quindi, sapendo solo che (e il fatto che il campione sia nato da una distribuzione di Poisson) è sufficiente per lo statista B dire qualcosa su θ ? Poiché sappiamo che questa è una statistica sufficiente, sappiamo che la risposta è "sì".∑ni=1xi=y=4068Bθ
Per ottenere qualche intuizione sul significato di ciò, facciamo quanto segue (tratto da "Introduzione alla statistica matematica" di Hogg & Mckean & Craig, 7a edizione, esercizio 7.1.9):
" decide di creare alcune false osservazioni, che chiama z 1 , z 2 , ... , z n (come sa che probabilmente non saranno uguali ai valori x originali ) come segue. Nota che la probabilità condizionale di Poisson indipendente le variabili casuali Z 1 , Z 2 … , Z n uguale a z 1 , z 2 , … , z n , dato ∑ z i = y , èBz1,z2,…,znxZ1,Z2…,Znz1,z2,…,zn∑zi=y
θz1e−θz1!θz2e−θz2!⋯θzne−θzn!nθye−nθy!=y!z1!z2!⋯zn!(1n)z1(1n)z2⋯(1n)zn
since Y=∑Zi has a Poisson distribution with mean nθ. The latter distribution is multinomial with y independent trials, each terminating in one of n mutually exclusive and exhaustive ways, each of which has the same probability 1/n. Accordingly, B runs such a multinomial experiment y independent trials and obtains z1,…,zn."
This is what the exercise states. So, let's do exactly that:
# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)
And let's see what Z looks like (I'm also plotting the real density of Poisson(4) for k=0,1,…,13 - anything above 13 is pratically zero -, for comparison):
# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"),
col = c("black","green"),pch=c(1,4))
So, knowing nothing about θ and knowing only the sufficient statistic Y=∑Xi we were able to recriate a "distribution" that looks a lot like a Poisson(4) distribution (as n increases, the two curves become more similar).
Now, comparing X and Z|y:
plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))
We see that they are pretty similar, as well (as expected)
So, "for the purpose of making a statistical decision, we can ignore the individual random variables Xi and base the decision entirely on the Y=X1+X2+⋯+Xn" (Ash, R. "Statistical Inference: A concise course", page 59).