Interpreto la domanda in questo modo: supponiamo che il campionamento sia stato presumibilmente effettuato come se biglietti di carta bianca fossero stati messi in un barattolo, ciascuno etichettato con il nome di una persona, e fossero estratti a caso dopo aver mescolato accuratamente il contenuto del barattolo. In precedenza, dei biglietti erano stati colorati di rosso. Qual è la possibilità che esattamente due dei biglietti selezionati siano rossi? Qual è la possibilità che al massimo due dei biglietti siano rossi?232 1236323212
È possibile ottenere una formula esatta, ma non è necessario svolgere molto lavoro teorico. Invece, monitoriamo solo le possibilità mentre i biglietti vengono estratti dal barattolo. Nel momento in cui ne sono stati ritirati , lasciare che la possibilità di vedere esattamente biglietti rossi sia stata scritta . Per iniziare, nota che se (non puoi avere biglietti rossi prima di iniziare) e (è certo che non hai biglietti rossi all'inizio). Ora, nell'ultima estrazione, o il biglietto era rosso o non lo era. Nel primo caso, in precedenza avevamo la possibilità di vedere esattamentei p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 363 - m + 1 i ( 12 - i + 1 ) / ( 363 - m + 1 )miop ( i , m )p ( i , 0 ) = 0i > 0p ( 0 , 0 ) = 1p ( i - 1 , m - 1 )i - 1biglietti rossi. Ci è poi capitato di estrarre uno rosso dai rimanenti biglietti, rendendolo esattamente biglietti rossi finora. Poiché supponiamo che tutti i biglietti abbiano pari opportunità in ogni fase, la nostra possibilità di disegnare un rosso in questo modo era quindi . Nell'altro caso, abbiamo avuto la possibilità di ottenere esattamente biglietti rossi nelle precedenti estrazioni , e la possibilità di non aggiungere un altro biglietto rosso al campione nella prossima estrazione era363 - m + 1io( 12 - i + 1 ) / ( 363 - m + 1 )i m - 1 ( 363 -p ( i , m - 1 )iom - 1( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 ). Quindi, usando gli assiomi di base della probabilità (in altre parole, si aggiungono le possibilità di due casi reciprocamente esclusivi e le probabilità condizionate),
p ( i , m ) = p ( i - 1 , m - 1 ) ( 12 - i + 1 ) + p ( i , m - 1 ) ( 363 - m + 1 - 12 + i )363 - m + 1.
Ripetiamo questo calcolo in modo ricorsivo, disponendo una matrice triangolare dei valori di per e . Dopo un piccolo calcolo otteniamo e , rispondendo a entrambe le versioni della domanda. Questi sono piccoli numeri: non importa come lo guardi, sono eventi piuttosto rari (più rari di uno su mille).0 ≤ i ≤ 12 0 ≤ m ≤ 232 p ( 2 , 232 ) ≈ 0.000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0.000934314p ( i , m )0 ≤ i ≤ 120≤m≤232p(2,232)≈0.000849884p(0,232)+p(1,232)+p(2,232)≈0.000934314
Come doppio controllo, ho eseguito questo esercizio con un computer 1.000.000 di volte. In 932 = 0.000932 di questi esperimenti, sono stati osservati 2 o meno biglietti rossi. Questo è estremamente vicino al risultato calcolato, perché la fluttuazione del campionamento nel valore atteso di 934.3 è di circa 30 (su o giù). Ecco come viene eseguita la simulazione in R:
> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6,
sum(sample(population, 232))) # Count the reds in 10^6 trials
> sum(results <= 2) # How many trials had 2 or fewer reds?
[1] 948
Questa volta, poiché gli esperimenti sono casuali, i risultati sono cambiati un po ': due o meno biglietti rossi sono stati osservati in 948 dei milioni di prove. Ciò è ancora coerente con il risultato teorico.)
La conclusione è che è altamente improbabile che due o meno dei 232 biglietti siano rossi. Se in effetti hai un campione di 232 di 363 persone, questo risultato indica chiaramente che il modello ticket-in-a-jar non è una descrizione corretta di come è stato ottenuto il campione. Spiegazioni alternative includono (a) i biglietti rossi sono stati resi più difficili da prendere dal barattolo (un "bias" contro di loro) e (b) i biglietti sono stati colorati dopo che il campione è stato osservato ( snooping dei dati post-hoc , che fa non indicare alcun pregiudizio).
Un esempio di spiegazione (b) in azione sarebbe un pool di giurie per un noto processo per omicidio. Supponiamo che includa 363 persone. Da quel pool, il tribunale ne ha intervistati 232. Un ambizioso giornalista di giornale rivede meticolosamente la vita di tutti i membri della piscina e nota che 12 dei 363 erano appassionati di pesci rossi, ma solo due di loro erano stati intervistati. La corte è di parte contro gli appassionati di pesci rossi? Probabilmente no.