Qual è la differenza tra uno stimatore e una statistica?


30

Ho imparato che una statistica è un attributo che puoi ottenere dai campioni. Prendendo molti campioni della stessa dimensione, calcolando questo attributo per tutti loro e tramando il pdf, otteniamo la distribuzione dell'attributo corrispondente o la distribuzione delle statistiche corrispondenti.

Ho anche sentito che le statistiche sono fatte per essere stimatori, in che modo differiscono questi due concetti?


2
Grazie per tutte le risposte ... Il concetto è molto più chiaro per me ora ..
gutto

Risposte:


17

Definizione

Da Wikipedia:

Una statistica [...] è una singola misura di alcuni attributi di un campione (ad esempio, il suo valore medio aritmetico).

E

Lo stimatore [A] n è una regola per calcolare una stima di una determinata quantità [della distribuzione sottostante] sulla base dei dati osservati.

La differenza importante è:

  • Una statistica è una funzione di un campione.
  • Uno stimatore è una funzione di un campione correlato a una certa quantità della distribuzione .

(Per cosa significa "Quantità", vedere la sezione seguente).

Una statistica non è uno stimatore

Uno stimatore è una statistica con qualcosa di aggiunto. Per trasformare una statistica in uno stimatore, devi semplicemente precisare quale quantità target vuoi stimare. Questo è confuso, perché non aggiungi nulla di "reale" alla statistica, ma solo alcuni intendono.

Per vedere che la differenza è importante, devi capire che non puoi calcolare le proprietà di uno stimatore (es. Bias , varianza , ecc.) Per una semplice statistica. Per calcolare la distorsione , devi trovare la differenza tra il valore che la tua statistica ti dà e il valore vero. Solo uno stimatore viene fornito con un "valore reale" che consente di calcolare una distorsione. Una statistica è semplicemente una funzione dei dati e non è né giusta né sbagliata.

Stimatori diversi basati sulla stessa statistica

È possibile specificare diverse quantità target per la stessa statistica, ottenendo stimatori diversi. Ciascuno di questi stimatori ha una sua inclinazione, sebbene siano tutti (basati su) lo stesso valore, la stessa statistica.

  • È possibile utilizzare la media campionaria come stimatore per la media di distribuzione . Questo stimatore ha zero distorsioni .
  • Puoi anche usare la media campionaria come stimatore per la varianza della distribuzione . Questo stimatore è distorto per la maggior parte delle distribuzioni.

Quindi dire "la media del campione è imparziale" non ha senso. La media campione è imparziale quando la si utilizza per stimare la media di distribuzione. Ma allo stesso tempo è distorto quando lo si utilizza per stimare la varianza della distribuzione.

Quantità di distribuzioni e quantità di campioni

Qui la quantità si riferisce ad alcune proprietà della distribuzione, che di solito è sconosciuta e quindi deve essere stimata. Ciò è in contrasto con una statistica , che è una proprietà di un campione, ad esempio la media di distribuzione è una quantità della tua distribuzione, mentre la media del campione è una statistica (una quantità del tuo campione).


1
Non c'è nulla di apertamente sbagliato in queste citazioni, ma mi lasciano perplesso su cosa si intenda esattamente per "quantità". Ad esempio, le citazioni non sembrano escludere la possibilità che una "quantità" sia un'altra statistica basata sugli stessi dati o forse sia un'altra statistica basata su un insieme separato di dati simili. (Nel secondo caso la prima statistica potrebbe essere usata come un predittore. Nel primo caso non credo che ci sia un nome, ma sicuramente non è "stimatore".)
whuber

@whuber Vedi modifica. Inizialmente volevo dare una risposta breve ... :(
ziggystar,

Presumibilmente la media del campione e la mediana del campione stimeranno lo stesso valore sottostante solo se la distribuzione è quella in cui mediana = media ...
Stumpy Joe Pete,

La mia critica ha meno senso alla luce della tua modifica. Stavo semplicemente dicendo che in molte distribuzioni mediana! = Media, quindi la mediana del campione e la media del campione non convergeranno allo stesso valore in questi casi (cioè, non stimare la stessa cosa).
Stumpy Joe Pete,

1
@ Stumpy Penso che tu abbia un leggero malinteso qui. Non importa se la mediana e il significato "convergono" alla stessa cosa (o a qualsiasi cosa). Per chiarire questo, lasciatemi essere un po 'ridicolo: potrei, se lo desidero, usare la varianza del campione per stimare la media. Non c'è assolutamente alcuna limitazione teorica - né può esserci - che dice che non posso farlo. La mia procedura soddisfa tutte le parti della definizione: la varianza del campione è veramente una statistica e la media è veramente una proprietà della distribuzione sottostante. Per le definizioni, è irrilevante che questa (spesso) sia una procedura terribile.
whuber

15

Questo thread è un po 'vecchio, ma sembra che Wikipedia possa aver cambiato la sua definizione e se è accurata, lo spiega più chiaramente per me:

Uno "stimatore" o "stima del punto" è una statistica (ovvero una funzione dei dati) che viene utilizzata per inferire il valore di un parametro sconosciuto in un modello statistico.

Quindi una statistica si riferisce ai dati stessi e un calcolo con tali dati. Mentre uno stimatore si riferisce a un parametro in un modello.

Se lo capisco correttamente, quindi, la media è una statistica e può anche essere uno stimatore. La media di un campione è una statistica (somma del campione divisa per la dimensione del campione). La media di un campione è anche uno stimatore della media della popolazione, supponendo che sia normalmente distribuita.

Chiederei a @whuber e ad altri che conoscono davvero questa roba se la (nuova?) Citazione di Wikipedia è accurata.


6
+1 Penso che tu abbia fondamentalmente giusto. Potresti essere interessato a sapere che l'obiettivo di uno stimatore non deve necessariamente essere un particolare "parametro" di un modello: può essere qualsiasi proprietà del modello, come una funzione dei suoi parametri. Ad esempio, non è un parametro per un modello normale ( μ , σ 2 ) , ma può essere stimato. μ2(μ,σ2)
whuber

5

Poiché altre risposte affermano che sono uguali non danno alcun riferimento autorevole, lasciatemi darvi due citazioni dal manuale di inferenza statistica di Casella e Berger:

Definizione 5.2.1 Sia un campione casuale di dimensione n da una popolazione e sia T ( x 1 , , x n ) una funzione con valore reale o valore vettoriale il cui dominio include lo spazio del campione di ( X 1 , , X n ) . Quindi viene chiamata la variabile casuale o il vettore casuale Y = T ( X 1 , , X n )X1,...,XnnT(x1,,xn)(X1,,Xn)Y=T(X1,...,Xn)statistica . La distribuzione di probabilità di statistica è detta distribuzione campionaria di Y .YY

e

Definizione 7.1.1 Uno stimatore di punti è qualsiasi funzione di un campione; vale a dire, qualsiasi statistica è uno stimatore del punto.W(X1,...,Xn)

Sto Non dicendo qui che questa è la risposta definitiva alla domanda, dal momento che mi sembra d'accordo con le due risposte più upvoted che suggeriscono che c'è una differenza, solo dare un riferimento che dice il contrario sottolineare che questo non è un cassa chiara.


4

"6" è un esempio di uno stimatore. Dì che la tua domanda era: "qual è la pendenza della migliore funzione lineare mappando da x a y?" La tua risposta potrebbe essere "6". Oppure potrebbe essere . Entrambi sono stimatori. Quale è meglio è a te decidere. (XX)1XY

Una TA davvero brava una volta mi ha spiegato il concetto di stimatore in quel modo.

Fondamentalmente, uno stimatore è una cosa che si applica ai dati per ottenere una quantità di cui non si conosce il valore. Conosci il valore di una statistica - è una funzione dei dati senza "migliore" o "ottimale" al riguardo. Non esiste una media "migliore". C'è solo un mezzo.

Supponi di avere un set di dati sul numero di capre possedute per persona e sulla felicità di ciascuna persona. Sei interessato a come la felicità delle persone cambia con il numero di capre che possiedono. Uno stimatore può aiutarti a stimare quella relazione dai tuoi dati. Le statistiche sono solo funzioni dei dati che hai. Ad esempio, la varianza della proprietà della capra può essere pari a 7. Il forula per il calcolo della varianza sarebbe identico tra capre e tostapane o se sei interessato alla felicità o alla propensione ad ammalarsi di cancro. In tal senso, tutti gli stimatori sensibili sono statistiche.


3

Domanda interessante. Gli stimatori e le statistiche non devono necessariamente essere cose diverse. Sono concetti diversi.

Una statistica è una funzione (in termini generali) in cui l'input sono dati (statistici). L'effetto è che si ottiene un risultato, di solito un numero, da questa statistica. In un termine più astratto, una statistica può produrre più di un numero. La statistica dipende dai dati, ma la procedura è deterministica. Quindi la statistica può essere: "Sommare tutti i numeri e dividere per il conteggio" o, in senso lato "prendere i dati gdp e preparare un rapporto su di essi".
In senso statistico stiamo ovviamente parlando di una funzione matematica come statistica.

Il significato di questo è che se conosci le proprietà dei dati che inserisci (ad esempio se si tratta di una variabile casuale), puoi calcolare le proprietà della tua statistica, senza inserire dati empirici.

Gli stimatori sono stimatori per il tuo intento: stimare una proprietà. A quanto pare, alcune statistiche sono buone stime.
Per esempio, se si tira punti di dati su un pool di variabili iid, quindi la media aritmetica - una statistica in base ai dati si tira, sarà probabilmente un buon stimatore per il valore atteso di tale distribuzione. Ma poi ogni cosa che produce una stima è uno stimatore.

In pratica, gli stimatori che utilizzerai saranno statistiche, ma ci sono statistiche che non sono stimatori. Ad esempio statistiche di test - sebbene si possa discutere della semantica di questa affermazione e, a peggiorare le cose, una statistica di test può non solo essere ma includere anche stimatori. Sebbene concettualmente questo non debba essere il caso.

E ovviamente puoi avere stimatori che non sono statistiche, anche se probabilmente non sono molto bravi a stimare.


1
2nnn+1

Sì, direi che "scegliere un valore" è la statistica deterministica e tutto ciò che è in precedenza correlato alla modifica del campione da cui hai scelto. Poi di nuovo, poiché la "procedura", se vuoi, è deterministica, posso solo consentire elementi stocastici come questo nella mia definizione di statistica ... Indica che gli stimatori che non sono una statistica potrebbero essere almeno quelli che sono indipendenti da qualsiasi dato. Ad esempio il numero "6" nella risposta di seguito. Si noti che non ho detto che gli stimatori non statistici sono necessariamente negativi.
IMA

1
Penso che forse stai facendo troppe distinzioni superflue che sono inutili e, alla fine, complicano la tua esposizione. Ad esempio, "1/2" è un ottimo stimatore del parametro di una variabile di Bernoulli (è minimax per perdita quadratica), quindi sarebbe un peccato escluderlo solo perché è indipendente dai dati. (Sarebbe analogo a escludere i quadrati come esempi di rettangoli nella geometria euclidea: potresti farlo, ma ciò raddoppierebbe le lunghezze della maggior parte delle affermazioni relative alle proprietà dei rettangoli.) Allo stesso modo aiuta a non escludere statistiche randomizzate.
whuber

Non penso che stiamo davvero parlando della stessa cosa. Dove escludo qualcosa? Se la metà è un grande stimatore, allora è un caso in cui si trova. Semplicemente non penso che la maggior parte dei possibili stimatori che non stanno facendo statistiche siano abbastanza grandi. Per una variabile di Bernoulli "1/2" è buono. Ma, abbastanza, alcuni altri stimatori della classe "Un numero reale" non sono molto buoni, non saresti d'accordo? Per quanto riguarda le statistiche randomizzate ancora basate sui dati, non l'ho escluso perché direi ancora che avrai bisogno di una procedura deterministica. Ma ammetto che dovrei aggiungere questo sopra.
IMA,

2

Penso che una migliore comprensione di cosa sia un campione aiuta.

[Aggiornato: il campione è un concetto molto ampio, stavo parlando del "campione casuale". Non so se uno stimatore abbia senso o meno quando il campione non è casuale .]

da Wikipedia :

Un campione casuale è definito come un campione in cui ogni singolo membro della popolazione ha una probabilità nota, diversa da zero, di essere selezionato come parte del campione.

nnnnn

Sostituiamo il campione nello stimatore con il valore del campione. Otteniamo un valore dello stimatore, questa è una misura specifica. E questa misura specifica è una statistica.

(Controlla questo link per la definizione di uno stimatore, l'ultima frase rivela perché siamo sempre confusi.)


1

L'obiettivo di questo pezzo di scrittura:

Quello che voglio fare qui è fornirti le somiglianze e le differenze tra i due concetti intimamente correlati chiamati "statistica" e "stimatore". Tuttavia, non voglio esaminare le differenze tra un parametro e una statistica, che presumo sia abbastanza chiara per tutti coloro che stanno lottando con le differenze tra una statistica e uno stimatore. Se non è il tuo caso, devi prima studiare i post precedenti, quindi iniziare a studiare questo post.

Relazione:

Fondamentalmente, qualsiasi funzione a valore reale di variabili casuali osservabili in un campione è chiamata statistica. Ci sono alcune statistiche che se sono ben progettate e hanno alcune buone proprietà (ad es. Coerenza, ...), possono essere utilizzate per stimare i parametri della distribuzione sottostante della popolazione. Pertanto, le statistiche sono un insieme ampio e gli stimatori sono un sottoinsieme all'interno dell'insieme delle statistiche. Quindi, ogni stimatore è una statistica, ma non ogni statistica è uno stimatore.

Somiglianze:

Parlando delle somiglianze, come accennato in precedenza, entrambi sono funzioni di variabili casuali. Inoltre, entrambi hanno distribuzioni chiamate "distribuzioni campionarie".

differenze:

Parlando delle differenze, sono diverse in termini di obiettivi e compiti. Gli obiettivi e i compiti di una statistica potrebbero essere la sintesi delle informazioni in un campione (utilizzando statistiche sufficienti) e talvolta facendo test di ipotesi, ecc. Al contrario, l'obiettivo e il compito principali di uno stimatore, come suggerisce il nome, è stimare i parametri della popolazione studiata. È importante ricordare che esiste una grande varietà di stimatori, ognuno dei quali ha una propria logica computazionale dietro, come MOME, MLE, stimatori OLS e così via. Un'altra differenza tra questi due concetti ha a che fare con le proprietà desiderate. Mentre una delle proprietà più desiderate di una statistica è la "sufficienza", le proprietà desiderate di uno stimatore sono cose come "coerenza", "imparzialità", "precisione", ecc.

Attenzione:

Pertanto, è necessario prestare attenzione all'utilizzo corretto della terminologia quando si ha a che fare con statistiche e stimatori. Ad esempio, non ha molto senso parlare della parzialità di una semplice statistica, che non è affatto uno stimatore, perché non esiste alcun parametro coinvolto in un tale contesto per consentirci di calcolare la distorsione, e Parlami di ciò. Quindi, devi stare attento alla terminologia!

La linea di fondo:

Per riassumere, qualsiasi funzione delle variabili casuali osservabili in un campione è una statistica. Se una statistica ha la capacità di stimare un parametro di una popolazione, allora la chiamiamo stimatore (del parametro di interesse). Tuttavia, ci sono alcune statistiche che non sono progettate per stimare i parametri, quindi queste statistiche non sono stimatori, e qui le chiamiamo "semplici statistiche".

Ciò che ho offerto sopra è il modo in cui guardo e penso a questi due concetti, e ho fatto del mio meglio per dirlo in parole semplici. Spero possa essere d'aiuto!


0

Nuova risposta a una vecchia Q:

Definizione 1. Una statistica è una funzione che mappa ogni campione su un numero reale.

Ogni stimatore è una statistica.

Ma tendiamo a chiamare solo quelle statistiche utilizzate per generare stime ("ipotesi") alcuni parametri uno stimatore.

Quindi, ad esempio, la statistica t e la media campionaria sono ENTRAMBI le statistiche. La media del campione è anche uno stimatore (perché spesso la usiamo per stimare la media della popolazione reale).

Al contrario, raramente / mai chiamiamo la statistica t uno stimatore, perché raramente / mai lo usiamo per stimare alcun parametro.

PQ

Esempio_

Supponiamo che il nostro parametro di interesse sia il risultato medio θ

θ

Ecco un possibile metodo. Tiriamo un dado 3 volte.

S=(X1,X2,X3)X1X2X3 quello del terzo.

S1=(5,4,1)S2=(4,1,6)S3=(6,3,2) .

PQPQS=(X1,X2,X3)

P(S)=X1ln(X2+X3),
Q(S)=X1+X2+X33.

P è una piuttosto bizzarra e probabilmente non è molto utile per nulla. Tuttavia, è una statistica lo stesso, semplicemente perché soddisfa la definizione di una statistica (è una funzione che mappa ogni campione su un numero reale).

Qθ .

Pθ


1
Questa risposta è diretta in una buona direzione. "Definizione 2", tuttavia, non sembra essere una definizione valida, a causa della sua circolarità (definisce "stimatore" in termini di "stima" senza spiegare quest'ultima). Affinché sia ​​efficace, è necessario spiegare che cosa è una "stima di un parametro" in modo sufficientemente dettagliato e chiaro che le persone possono formulare misurazioni quantitative di come funziona uno stimatore.
whuber

θθ5

2
Sfortunatamente, come stavo cercando di suggerire, qualcosa di essenziale sembra essersi perso nella semplificazione, perché la tua seconda definizione non distingue affatto uno stimatore da qualsiasi altra statistica.
whuber

@whuber: Esatto. Formalmente, uno stimatore è semplicemente una statistica. Ma tendiamo a usare la parola "stimatore" per fare riferimento a una statistica se tale statistica viene utilizzata per stimare alcuni parametri di interesse. Ho modificato la mia risposta per chiarire questo punto.
Kenny LJ,

-3

Nel test di ipotesi :

Una statistica test riguarda i test di ipotesi. Una statistica test è una variabile casuale data / sotto l'ipotesi nulla. Ora, alcuni potrebbero chiamare una statistica il valore / misura della statistica test fornita dal campione.

Con questi due è possibile ottenere il valore p che è una misura che aiuta a rifiutare o non rifiutare l'ipotesi nulla. Tutto sommato, una statistica è una stima di quanto lontano / vicino alla tua ipotesi.

Questo link può essere utile.


2
Sembra che tu stia affrontando una domanda diversa, qualcosa correlato ai test di ipotesi piuttosto che alla stima. La tua definizione di "statistica" è molto più limitata rispetto alle definizioni standard: le statistiche si applicano a tutte le forme di processo decisionale, non solo ai casi molto limitati di verifica delle ipotesi e ipotesi nulle. Inoltre, i test di ipotesi non sono gli stessi degli stimatori e la maggior parte delle statistiche non vengono utilizzate come stimatori della vicinanza ad alcune ipotesi.
whuber

Non direi che è una domanda diversa. Dà almeno un quadro di ciò che è nel contesto del test di ipotesi!
dfhgfh,

2
Poiché questa risposta si concentra su una versione limitata e specializzata della domanda e utilizza i termini chiave "stimatore" e "statistica" in modi non convenzionali, senza avvisare il lettore di questo fatto, temo che possa fuorviare o confondere le persone.
whuber

Ho pensato che i test di ipotesi fossero di gran lunga un campo statistico limitato e specializzato.
dfhgfh,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.