Esempi di una statistica che non è indipendente dalla distribuzione del campione?


14

Questa è la definizione di statistica su Wikipedia

Più formalmente, la teoria statistica definisce una statistica come una funzione di un campione in cui la funzione stessa è indipendente dalla distribuzione del campione; cioè, la funzione può essere dichiarata prima della realizzazione dei dati. Il termine statistico viene utilizzato sia per la funzione che per il valore della funzione su un dato campione.

Penso di aver compreso la maggior parte di questa definizione, tuttavia la parte - in cui la funzione è indipendente dalla distribuzione del campione non sono stata in grado di risolvere.

La mia comprensione della statistica finora

Un campione è un insieme di realizzazioni di un certo numero di variabili casuali indipendenti, identicamente distribuite (iid) con distribuzione F (10 realizzazioni di un tiro di un dado a 20 facce, 100 realizzazioni di 5 tiri di un dado a 6 facce, attirare casualmente 100 persone da una popolazione).

Una funzione, il cui dominio è quel set, e il cui intervallo sono i numeri reali (o forse può produrre altre cose, come un vettore o un altro oggetto matematico ...) sarebbe considerata una statistica .

Quando penso ad esempi, media, mediana, varianza hanno senso in questo contesto. Sono una funzione sul set di realizzazioni (misurazioni della pressione sanguigna da un campione casuale). Posso anche vedere come un modello di regressione lineare potrebbe essere considerato una statistica yi=α+βxi - non è solo una funzione su un insieme di realizzazioni?

Dove sono confuso

Supponendo che la mia comprensione dall'alto sia corretta, non sono stato in grado di capire dove una funzione potrebbe non essere indipendente dalla distribuzione del campione. Ho cercato di pensare a un esempio per dargli un senso, ma senza fortuna. Qualsiasi approfondimento sarebbe molto apprezzato!

Risposte:


44

Tale definizione è un modo alquanto imbarazzante per affermarla. Una "statistica" è qualsiasi funzione dei valori osservabili. Tutto ciò significa che una statistica è solo una funzione dei valori osservabili, non una funzione della distribuzione o di uno dei suoi parametri. Ad esempio, se X1,X2,...,XnN(μ,1) poi una statistica sarebbe alcuna funzioneT(X1,...,Xn) mentre una funzioneH(X1,....,Xn,μ) non sarebbe una statistica, poiché dipende daμ . Ecco alcuni altri esempi:

StatisticX¯n=1ni=1nXi,StatisticSn2=1ni=1n(XiX¯n)2,Not a statisticDn=X¯nμ,Not a statisticpi=N(xi|μ,1),Not a statisticQ=10μ.

Ogni statistica è una funzione solo dei valori osservabili e non della loro distribuzione o dei suoi parametri. Quindi non ci sono esempi di una statistica che è una funzione della distribuzione o dei suoi parametri (tale funzione non sarebbe una statistica). Tuttavia, è importante notare che la distribuzione di una statistica (al contrario della statistica stessa) dipenderà generalmente dalla distribuzione sottostante dei valori. (Questo vale per tutte le statistiche diverse dalle statistiche accessorie .)


Che dire di una funzione in cui i parametri sono noti? Nei commenti seguenti, Alecos pone un'eccellente domanda di follow-up. Che dire di una funzione che utilizza un valore ipotizzato fisso del parametro? Ad esempio, che dire della statistica n(x¯μ)doveμ=μ0è considerato uguale a un valore ipotizzato notaμ0R. Qui la funzione è davvero una statistica, purché sia ​​definita nel dominio appropriatamente limitato. Quindi la funzioneH0:RnRconH0(x1,...,xn)=n(x¯μ0)sarebbe una statistica, ma la funzioneH:Rn+1RconH(x1,...,xn,μ)=n(x¯μ)sarebbenonessere una statistica.


1
Una risposta molto utile, considerando il parametro statistico sottostante come parte della non statistica è stata particolarmente utile.
Jake Kirsch,

4
@CarlWitthoft Non capisco. Se è una funzione dei valori osservabili, allora è una statistica. Può essere una funzione di un sottoinsieme più piccolo dei valori; può ancora essere una cosa utile da considerare. Se vuoi stimare la media e hai osservazioni, potresti ancora guardare ( X 1 + X 2 + + X 1000 ) / 1000 se il costo dell'elaborazione dei dati è alto e il costo dell'errore è piccolo. O per qualche motivo potresti voler considerare due stime indipendenti della media e potresti considerare ( / 2 ) / ( n /1010(X1+X2++X1000)/1000(X1++Xn/2)/(n/2)(Xn/2+1++Xn)/(n/2)

4
Questi esempi mi sembrano del tutto validi. Stai dicendo che l'idea di dividere i dati in un set di training e un set di validazione non è valida?
James Martin

2
Sono un po 'confuso anche da quello. Vorrei provare a descrivere il punto @CarlWitthoft. Sarebbe comunque una statistica in termini di definizione matematica, ma potrei vedere un caso in cui un consulente prende una "statistica" di osservazioni, ma decide arbitrariamente di rimuovere alcuni risultati (i consulenti lo fanno sempre, giusto?). Ciò sarebbe "valido" nel senso che è ancora una funzione delle osservazioni, tuttavia il modo in cui la statistica può essere presentata e interpretata probabilmente non sarebbe valido.
Jake Kirsch,

2
@Carl Withhoft: per quanto riguarda il punto che stai sollevando, è importante distinguere tra una statistica (che non deve includere tutti i dati e potrebbe non comprendere tutte le informazioni nel campione) e una statistica sufficiente (che includerà tutti l'informazione rispetto ad alcuni parametri). La teoria statistica ha già concetti ben sviluppati come la sufficienza che catturano l'idea che una statistica includa tutte le informazioni rilevanti nel campione. Non è necessario, o desiderabile, cercare di integrare tale requisito nella definizione di "statistica".
Ripristina Monica l'

4

Interpreto ciò dicendo che dovresti decidere prima di vedere i dati quale statistica stai per calcolare. Quindi, per esempio, se hai intenzione di eliminare i valori anomali, dovresti decidere prima di vedere i dati cosa costituisce un "valore anomalo". Se decidi dopo aver visualizzato i dati, la tua funzione dipende dai dati.


anche questo è utile! Quindi prendere una decisione su quali osservazioni includere nella funzione dopo aver saputo quali osservazioni sono disponibili, che è più o meno quello che stavo descrivendo nel mio commento alla risposta precedente.
Jake Kirsch,

2
+1 .). È davvero difficile ricavare una distribuzione per una misura che comporta la caduta di punti dati per motivi che non sono definiti in modo chiaro prima.
Cliff AB,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.