Questo è un ottimo esempio per illustrare la differenza tra approcci frequentista e bayesiano all'inferenza.
La mia prima, semplicistica risposta da frequentatore:
se hai già ipotizzato che la distribuzione degli scioperi sia binomiale, non devi sapere nulla degli altri 1000 giocatori (a parte forse potresti usarli per verificare la tua ipotesi binomiale).
Una volta chiarito il presupposto binomiale, la stima è molto semplice: 3/10. La varianza di questa stima è la solita p (1-p) / n = 0,021.
Fondamentalmente, gli altri 1000 giocatori sono irrilevanti a meno che tu non pensi che ci sia qualcosa di interessante e non binomiale nella distribuzione degli strike (ad es. Le persone migliorano mentre giocano più giochi).
Un modo bayesiano più considerato di guardarlo: in
alternativa, se sei interessato ad applicare le conoscenze precedenti che hai di altri giocatori e pensi che il nuovo giocatore sia fondamentalmente un nuovo campione di quella stessa popolazione, dovresti pensarlo in Bayesiano termini .
Stimare una distribuzione precedente di giocatori. Per fare questo, devi guardare i tuoi 1000 punti dati - i 1000 giocatori che sono già stati osservati, per ognuno dei quali hai una stima della loro probabilità di un colpo. Ognuno di questi 1000 punti può assumere solo uno dei 21 valori (da zero a venti colpi su venti) e vedrai una distribuzione su tutto il campo. Se converti questi punteggi in proporzioni (cioè tra zero e uno) questa distribuzione può probabilmente essere approssimata ragionevolmente bene da una distribuzione di probabilità di una variabile casuale con una distribuzione Beta. Una distribuzione beta è completamente caratterizzata da solo due parametri - diciamo aeb - ma poiché questi parametri non hanno realmente a che fare con la distribuzione di cui ci hai chiesto (la probabilità di un colpo del giocatore in particolare) ma una distribuzione di livello superiore chiamali iperparametri. Puoi sviluppare stime di questi iperparametri dai tuoi 1000 punti dati in uno dei vari modi che non sono realmente rilevanti per il punto principale della tua domanda.
Prima di avere qualsiasi informazione sul tuo giocatore, la tua ipotesi migliore sulla sua percentuale di segnare uno strike (chiamiamolo p) sarebbe solo il valore più probabile di p da quella distribuzione Beta che abbiamo appena inserito.
Tuttavia, abbiamo dati sul nostro giocatore, non solo sulla popolazione generale! In Dio ci fidiamo, tutti gli altri devono portare i dati (attribuirei questa citazione se potessi ricordare dove l'ho trovata, scusa). Ogni volta che osserviamo il nostro giocatore giocare e fare uno strike o no, abbiamo una nuova informazione per precisare la nostra stima della sua proporzione.
Una delle cose interessanti della distribuzione beta come distribuzione di probabilità per una proporzione è che mentre raccogliamo nuove informazioni dai dati e creiamo una nuova stima migliorata della proporzione, la teoria della probabilità può mostrare che anche la nuova stima migliorata è una beta distribuzione - solo una versione più concentrata. Questo perché la distribuzione beta è ciò che viene definito un coniugato prima quando si cerca di fare stime su un modello binomiale.
Cioè, se osserviamo z su n eventi di successo (giochi con strike in questo caso); e la distribuzione precedente era beta (a, b); la distribuzione posteriore (sono la stima della distribuzione di probabilità di p dati sia i 1000 punti di dati originali sia una nuova osservazione di dieci giochi) è beta (a + z, b + nz) o (nel nostro caso) beta (a + 3, b + 7). Come puoi vedere, più dati ottieni, meno importanti sono aeb. La matematica di questo è ragionevolmente semplice e in molti testi, ma non così interessante (per me, comunque).
Se hai R puoi vedere un esempio eseguendo il codice qui sotto (e se non hai R dovresti ottenerlo - è gratuito ed è fantastico per aiutare a pensare attraverso questo tipo di problema). Questo presuppone che la distribuzione precedente dei giocatori possa essere modellata dalla beta (2,5) - questo è stato appena creato da me. In realtà, ci sono modi in cui è possibile stimare le cifre per aeb meglio del semplice recupero di 2 e 5 perché penso che la curva sembri ok.
Come vedrai se esegui questo esempio stilizzato, la stima puntuale della probabilità del giocatore di segnare uno strike, data una precedente distribuzione di beta (2,5), è 0,29 anziché 0,30. Inoltre, possiamo creare un intervallo di credibilità, che è francamente più intuitivo e più facile da spiegare rispetto a un intervallo di confidenza (vedi molte domande e discussioni su Internet della differenza tra i due, anche su CrossValidated).
plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"),
lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data
Quindi osserva il tuo nuovo giocatore; e calcola una nuova distribuzione posteriore per il nuovo giocatore. In effetti questo dice "dato quello che abbiamo appena osservato, dove nella distribuzione dei giocatori pensiamo che questa persona abbia più probabilità di essere?"