Perché una statistica sufficiente contiene tutte le informazioni necessarie per calcolare qualsiasi stima del parametro?


16

Ho appena iniziato a studiare le statistiche e non riesco ad avere una comprensione intuitiva della sufficienza. Per essere più precisi, non riesco a capire come dimostrare che i seguenti due paragrafi sono equivalenti:

All'incirca, dato un insieme X di dati indipendenti identicamente distribuiti condizionati su un parametro sconosciuto θ, una statistica sufficiente è una funzione T (X) il cui valore contiene tutte le informazioni necessarie per calcolare qualsiasi stima del parametro.

Una statistica T (X) è sufficiente per il parametro sottostante θ proprio se la distribuzione di probabilità condizionale dei dati X, data la statistica T (X), non dipende dal parametro θ.

(Ho preso le citazioni dalla statistica sufficiente )

Sebbene capisca la seconda affermazione e posso usare il teorema di fattorizzazione per mostrare se una determinata statistica è sufficiente, non riesco a capire perché una statistica con tale proprietà abbia anche la proprietà che "contiene tutte le informazioni necessarie per calcolare qualsiasi stima del parametro ". Non sto cercando una prova formale, che mi aiuti comunque a perfezionare la mia comprensione, mi piacerebbe avere una spiegazione intuitiva del perché le due affermazioni siano equivalenti.

Ricapitolando, le mie domande sono: perché le due affermazioni sono equivalenti? Qualcuno potrebbe fornire una spiegazione intuitiva per la loro equivalenza?


1
L'idea intuitiva principale è che a volte non è necessario vedere l'intero campione perché è possibile trovare una statistica che riepiloga tutte le informazioni necessarie dal campione. Prendi, ad esempio, una distribuzione binomiale: tutto ciò che devi sapere per il tuo modello è la somma dei successi. Non si perde nulla di valore se solo vi dico che , invece di mostrare voi l'intero insieme di valori campionati x = { 1 , 0 , 0 , 1 , 0 , 1 , . . . } . inxi=cX={1,0,0,1,0,1,...}
Mugen

Capisco perché avrei bisogno di statistiche sufficienti e come dimostrare che la somma dei successi è una statistica sufficiente per p in un processo di Bernoulli. Quello che non capisco è il motivo per cui una statistica come quella descritta nel secondo paragrafo contiene tutte le informazioni necessarie per calcolare qualsiasi stima del parametro.
gcoll,

3
A rigor di termini, la prima citazione è semplicemente sbagliata. Esistono molti stimatori che possono essere calcolati dall'intero set di dati che non possono essere calcolati solo da statistiche sufficienti. Questo è uno dei motivi per cui la citazione inizia "approssimativamente". Un altro motivo è che non fornisce una definizione quantitativa o rigorosa di "informazioni". Dato che nel paragrafo precedente era stata data una caratterizzazione molto più accurata (ma ancora intuitiva), tuttavia, non vi è alcun problema con questa citazione nel contesto appropriato.
whuber

1
Ha una connessione con la massima probabilità ed è essenzialmente l'informazione necessaria con la massima probabilità
Kamster

1
Seguendo i commenti di whuber e @Kamster, probabilmente ho capito meglio. Quando diciamo che una statistica sufficiente contiene tutte le informazioni necessarie per calcolare qualsiasi stima del parametro, intendiamo effettivamente che è sufficiente calcolare lo stimatore della massima verosimiglianza (che è una funzione di tutte le statistiche sufficienti)? È vero, il problema era tutto legato alla (non) definizione di "informazione", come suggeriva whuber, e la mia domanda ha una risposta.
gcoll,

Risposte:


3

Seguendo i commenti di @whuber e @Kamster, probabilmente ho capito meglio. Quando diciamo che una statistica sufficiente contiene tutte le informazioni necessarie per calcolare qualsiasi stima del parametro, ciò che intendiamo effettivamente è che è sufficiente calcolare lo stimatore della massima verosimiglianza (che è una funzione di tutte le statistiche sufficienti).

Dato che sto rispondendo alla mia domanda, e quindi non sono sicuro al 100% della risposta, non la contrassegnerò come corretta fino a quando non avrò un feedback. Per favore, aggiungi qualsiasi commento e vota verso il basso se pensi che mi sbagli / impreciso / ecc ...

(Fammi sapere se questo non è compatibile con l'etichetta SE, essendo questa la mia prima domanda ti chiedo clemenza se sto violando qualsiasi regola)


1

Mentre studiavo la sufficienza mi sono imbattuto nella tua domanda perché volevo anche capire l'intuizione di Da quello che ho raccolto questo è quello che mi viene in mente (fammi sapere cosa ne pensi, se ho fatto degli errori, ecc.).

Sia X1,,Xn un campione casuale da una distribuzione di Poisson con media .θ>0

Sappiamo che è una statistica sufficiente per θ , poiché la distribuzione condizionale di X 1 , , X n dato T ( X ) è privo di θ , in altre parole, non dipende da θ .T(X)=i=1nXiθX1,,XnT(X)θθ

Ora, lo statistico sa che X 1 , ... , X n i . io . d ~ P o i s s o n ( 4 ) e crea n = 400 valori casuali da questa distribuzione:A X1,,Xni.i.dPoisson(4)n=400

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

Per i valori che lo statistico ha creato, ne prende la somma e chiede allo statistico B quanto segue:AB

"Ho questi valori di esempio presi da una distribuzione di Poisson. Sapendo che n i = 1 x i = y = 4068 , cosa puoi dirmi di questa distribuzione?"x1,,xni=1nxi=y=4068

Quindi, sapendo solo che (e il fatto che il campione sia nato da una distribuzione di Poisson) è sufficiente per lo statista B dire qualcosa su θ ? Poiché sappiamo che questa è una statistica sufficiente, sappiamo che la risposta è "sì".i=1nxi=y=4068Bθ

Per ottenere qualche intuizione sul significato di ciò, facciamo quanto segue (tratto da "Introduzione alla statistica matematica" di Hogg & Mckean & Craig, 7a edizione, esercizio 7.1.9):

" decide di creare alcune false osservazioni, che chiama z 1 , z 2 , ... , z n (come sa che probabilmente non saranno uguali ai valori x originali ) come segue. Nota che la probabilità condizionale di Poisson indipendente le variabili casuali Z 1 , Z 2, Z n uguale a z 1 , z 2 , , z n , dato z i = y , èBz1,z2,,znxZ1,Z2,Znz1,z2,,znzi=y

θz1eθz1!θz2eθz2!θzneθzn!nθyenθy!=y!z1!z2!zn!(1n)z1(1n)z2(1n)zn

since Y=Zi has a Poisson distribution with mean nθ. The latter distribution is multinomial with y independent trials, each terminating in one of n mutually exclusive and exhaustive ways, each of which has the same probability 1/n. Accordingly, B runs such a multinomial experiment y independent trials and obtains z1,,zn."

This is what the exercise states. So, let's do exactly that:

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

And let's see what Z looks like (I'm also plotting the real density of Poisson(4) for k=0,1,,13 - anything above 13 is pratically zero -, for comparison):

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

enter image description here

So, knowing nothing about θ and knowing only the sufficient statistic Y=Xi we were able to recriate a "distribution" that looks a lot like a Poisson(4) distribution (as n increases, the two curves become more similar).

Now, comparing X and Z|y:

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

enter image description here

We see that they are pretty similar, as well (as expected)

So, "for the purpose of making a statistical decision, we can ignore the individual random variables Xi and base the decision entirely on the Y=X1+X2++Xn" (Ash, R. "Statistical Inference: A concise course", page 59).


0

Let me give another perspective that may help. This is also qualitative, but there is a rigorous version of that particularly important in Information Theory - known as Markov property.

In the beginning, we have two objects, data (coming from a Random Variable, call it X) and parameter, θ (another rv, implicitly assumed since we are talking about its estimator). These two, are assumed to be dependent (otherwise, there is no point in trying to estimate one from the other). Now, the third object enters the game, Sufficient Statistic, T. The intuitive idea when we say T is enough to estimate θ really means that if we know T (ie conditioned on T), X provides no additional info, that is, X and θ are independent. In other word, knowledge of X is equivalent to knowledge of T as far as estimation of θ is concerned. Note that in probabilities are where all the uncertainties are captured, and hence "any estimate" when (conditional) probabilities are independent (eg conditional densities factorize).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.