Statistiche sufficienti per i non addetti ai lavori


Risposte:


33

Una statistica sufficiente sintetizza tutte le informazioni contenute in un campione in modo da fare una stima dello stesso parametro se ti abbiamo fornito il campione o solo la statistica stessa. Riduzione dei dati senza perdita di informazioni.

Ecco un esempio. Supponiamo che abbia una distribuzione simmetrica di circa zero. Invece di darti un campione, ti passo invece un campione di valori assoluti (questa è la statistica). Non riesci a vedere il segno. Ma sai che la distribuzione è simmetrica, quindi per un dato valore x , - x e x sono ugualmente probabili (la probabilità condizionata è 0,5 ). Quindi puoi lanciare una moneta giusta. Se esce testa, rendi quella x negativa. Se esce croce, rendilo positivo. Questo ti dà un campione da X , che ha la stessa distribuzione dei dati originali XXxxx0.5xXX. Fondamentalmente sei stato in grado di ricostruire i dati dalla statistica. Questo è ciò che lo rende sufficiente.


Per chiarire / confermare: le statistiche sono sufficienti per un parametro. Non ci sono parametri menzionati in questo esempio, ma suppongo che la statistica sarebbe sufficiente per qualsiasi parametro di qualsiasi distribuzione parametrica scelta X? Quindi questo è qualcosa di un esempio insolito, ma comunque utile per l'intuizione.
Denziloe,

2
@Denziloe Sufficiente per qualsiasi parametro di quella distribuzione, sotto i forti presupposti della simmetria intorno a 0. Questo è un esempio di giocattolo progettato per costruire l'intuizione.
Dimitriy V. Masterov il

13

In termini bayesiani, hai una proprietà osservabile X e un parametro Θ . La distribuzione congiunta per X,Θ è specificata, ma considerata come distribuzione condizionale di XΘ e distribuzione precedente di Θ . Una statistica T è sufficiente per questo modello se e solo se la distribuzione posteriore di ΘX è uguale a quella di ΘT(X) , per ogni precedente distribuzione di Θ . In parole, la tua incertezza aggiornata su Θ dopo aver conosciuto il valore diX è uguale alla tua incertezza aggiornata suΘ dopo aver conosciuto il valore diT(X) ,qualunque informazione precedente tu abbia di Θ . Tieni presente che la sufficienza è un concetto dipendente dal modello.


1

Supponi di avere una moneta e non sai se è giusto o no. In altre parole, ha probabilità p di salire le teste ( H ) e 1p di salire le code ( T ), e non conosci il valore di p .

Cerchi di farti un'idea del valore di p lanciando la moneta più volte, diciamo n volte.

Diciamo n=5 e il risultato che ti capita di ottenere è la sequenza (H,H,T,H,T) .

Ora vuoi che il tuo amico statistico valuti il ​​valore di p per te e forse ti dica se è probabile che la moneta sia giusta o no. Di quali informazioni hai bisogno per dire loro in modo che possano fare i loro calcoli e trarre le loro conclusioni?

Potresti dire loro tutti i dati, cioè (H,H,T,H,T) . È necessario però? Potresti riassumere questi dati senza perdere alcuna informazione rilevante?

È chiaro che l'ordine dei lanci delle monete è irrilevante, perché stavi facendo la stessa cosa per ogni lancio delle monete, e i lanci delle monete non si influenzano a vicenda. Se il risultato fosse (H,H,T,T,H) invece, per esempio, le nostre conclusioni non sarebbero diverse. Ne consegue che tutto ciò di cui hai veramente bisogno per dire al tuo amico statistico è il conteggio di quante teste c'erano.

Esprimiamo questo dicendo che il numero di teste è una statistica sufficiente per p .

Questo esempio dà il sapore del concetto. Continua a leggere se desideri vedere come si connette con la definizione formale.

Formalmente, una statistica è sufficiente per un parametro se, dato il valore della statistica, la distribuzione di probabilità dei risultati non coinvolge il parametro.

In questo esempio, prima di conoscere il numero di teste, la probabilità di qualsiasi risultato è pnumber of heads(1p)n - number of heads . Ovviamente questo dipende da p .

(H,H,T,H,T)(H,H,T,T,H)...1/10ppp

pnumber of headsnumber of headsp

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.