Qual è la probabilità che n persone di un elenco di m persone si trovino in una selezione casuale di x persone di un elenco di y persone?


10

Se sto selezionando 232 persone da un pool di 363 persone senza sostituzione, qual è la probabilità che 2 di un elenco di 12 persone specifiche siano in quella selezione?

Questo è un sorteggio casuale per una gara ultra in cui c'erano 363 partecipanti per 232 posti. C'è una discussione sul fatto che la selezione sia stata parziale rispetto a un determinato gruppo di 12 persone.

Il mio tentativo iniziale di calcolare questo era che c'erano 232 scegliere 363 possibili selezioni. Il numero di combinazioni di una sola persona dall'elenco di dodici è 1 scegli 12 + 2 scegli 12 + ... + 11 scegli 12 + 12 scegli 12. Quindi 1 scegli 12 + 2 scegli 12 .... / 232 scegli 363 Il che finisce per essere un numero molto basso che è chiaramente troppo basso.

Come posso calcolarlo?


1
Due punti tecnici. Innanzitutto, ora hai a che fare con una probabilità piuttosto che con una probabilità, poiché il risultato è noto. Secondo, non importa quale sia la probabilità teorica, dato che hai un risultato. Penso che sarebbe meglio avvicinarsi al metodo utilizzato per la selezione: come sono state scelte le selezioni? È necessario dimostrare la correttezza del metodo, non la correttezza del risultato.
Michelle

1
Uno vedrebbe questo come una probabilità, Michelle, allo scopo di stimare le probabilità di selezione. Questo non sembra essere il caso qui.
whuber

Devi stare attento nell'usare il semplice calcolo del camper ipergeometrico, poiché le 12 persone che si lamentano non vengono selezionate casualmente. Si lamentano perché non sono stati selezionati.
Guy

Risposte:


10

Interpreto la domanda in questo modo: supponiamo che il campionamento sia stato presumibilmente effettuato come se biglietti di carta bianca fossero stati messi in un barattolo, ciascuno etichettato con il nome di una persona, e fossero estratti a caso dopo aver mescolato accuratamente il contenuto del barattolo. In precedenza, dei biglietti erano stati colorati di rosso. Qual è la possibilità che esattamente due dei biglietti selezionati siano rossi? Qual è la possibilità che al massimo due dei biglietti siano rossi?232 1236323212

È possibile ottenere una formula esatta, ma non è necessario svolgere molto lavoro teorico. Invece, monitoriamo solo le possibilità mentre i biglietti vengono estratti dal barattolo. Nel momento in cui ne sono stati ritirati , lasciare che la possibilità di vedere esattamente biglietti rossi sia stata scritta . Per iniziare, nota che se (non puoi avere biglietti rossi prima di iniziare) e (è certo che non hai biglietti rossi all'inizio). Ora, nell'ultima estrazione, o il biglietto era rosso o non lo era. Nel primo caso, in precedenza avevamo la possibilità di vedere esattamentei p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 363 - m + 1 i ( 12 - i + 1 ) / ( 363 - m + 1 )mip(i,m)p(i,0)=0i>0p(0,0)=1p(i1,m1)i1biglietti rossi. Ci è poi capitato di estrarre uno rosso dai rimanenti biglietti, rendendolo esattamente biglietti rossi finora. Poiché supponiamo che tutti i biglietti abbiano pari opportunità in ogni fase, la nostra possibilità di disegnare un rosso in questo modo era quindi . Nell'altro caso, abbiamo avuto la possibilità di ottenere esattamente biglietti rossi nelle precedenti estrazioni , e la possibilità di non aggiungere un altro biglietto rosso al campione nella prossima estrazione era363m+1i(12i+1)/(363m+1)i m - 1 ( 363 -p(i,m1)im1(363m+112+i)/(363m+1). Quindi, usando gli assiomi di base della probabilità (in altre parole, si aggiungono le possibilità di due casi reciprocamente esclusivi e le probabilità condizionate),

p(i,m)=p(i1,m1)(12i+1)+p(i,m1)(363m+112+i)363m+1.

Ripetiamo questo calcolo in modo ricorsivo, disponendo una matrice triangolare dei valori di per e . Dopo un piccolo calcolo otteniamo e , rispondendo a entrambe le versioni della domanda. Questi sono piccoli numeri: non importa come lo guardi, sono eventi piuttosto rari (più rari di uno su mille).0 i 12 0 m 232 p ( 2 , 232 ) 0.000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) 0.000934314p(i,m)0i120m232p(2,232)0.000849884p(0,232)+p(1,232)+p(2,232)0.000934314

Come doppio controllo, ho eseguito questo esercizio con un computer 1.000.000 di volte. In 932 = 0.000932 di questi esperimenti, sono stati osservati 2 o meno biglietti rossi. Questo è estremamente vicino al risultato calcolato, perché la fluttuazione del campionamento nel valore atteso di 934.3 è di circa 30 (su o giù). Ecco come viene eseguita la simulazione in R:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

Questa volta, poiché gli esperimenti sono casuali, i risultati sono cambiati un po ': due o meno biglietti rossi sono stati osservati in 948 dei milioni di prove. Ciò è ancora coerente con il risultato teorico.)

La conclusione è che è altamente improbabile che due o meno dei 232 biglietti siano rossi. Se in effetti hai un campione di 232 di 363 persone, questo risultato indica chiaramente che il modello ticket-in-a-jar non è una descrizione corretta di come è stato ottenuto il campione. Spiegazioni alternative includono (a) i biglietti rossi sono stati resi più difficili da prendere dal barattolo (un "bias" contro di loro) e (b) i biglietti sono stati colorati dopo che il campione è stato osservato ( snooping dei dati post-hoc , che fa non indicare alcun pregiudizio).

Un esempio di spiegazione (b) in azione sarebbe un pool di giurie per un noto processo per omicidio. Supponiamo che includa 363 persone. Da quel pool, il tribunale ne ha intervistati 232. Un ambizioso giornalista di giornale rivede meticolosamente la vita di tutti i membri della piscina e nota che 12 dei 363 erano appassionati di pesci rossi, ma solo due di loro erano stati intervistati. La corte è di parte contro gli appassionati di pesci rossi? Probabilmente no.


NB Nella simulazione, non importa che siano i primi 12 "ticket" ad essere contrassegnati, poiché tutto il campionamento viene eseguito in modo casuale senza sostituzione (tramite sample). In effetti, ad ogni iterazione samplemescola accuratamente i ticket ogni volta che viene chiamato prima che ne ritiri 232.
whuber

2
Bontà - non era in realtà il risultato che mi aspettavo. Grazie per il tuo accurato lavoro e buona spiegazione. (Curiosamente, in realtà ho fatto alcuni allenamenti sulle statistiche all'Università di Auckland, dove R è stato sviluppato per la prima volta)
Sarge

10

@whuber ha dato una spiegazione esauriente, voglio solo sottolineare che esiste una distribuzione statistica standard corrispondente a questo scenario: la distribuzione ipergeometrica . Quindi puoi ottenere tali probabilità direttamente in, diciamo, R:

Probabilità di esattamente 2 su 12 selezionati:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

Probabilità di 2 o meno su 12 selezionati:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314

+1 Grazie. Avrei dovuto menzionare questa connessione. La distribuzione ipergeometrica appare classicamente negli esperimenti di campionamento-ricampionamento. Le 12 persone specifiche (i miei "biglietti rossi") sono come pesci che sono stati catturati, contrassegnati e gettati di nuovo in piscina; il campione di 232 è come l'insieme di pesci che vengono successivamente catturati. La distribuzione ipergeometrica descrive le frequenze dei pesci ricatturati.
whuber

0

Le probabilità sono molto più alte di quelle calcolate con la semplice distribuzione ipergeometrica, poiché il gruppo non viene scelto in modo casuale ( "12 pesci sono dipinti di rosso prima del sorteggio" ).

Dalla descrizione della domanda, stiamo testando una frode nel sorteggio. Un gruppo specifico di 12 persone si è lamentato del fatto che solo 2 di loro sono stati selezionati, mentre il numero previsto era 232/363 ~ 2/3 = 8.

Quello che dobbiamo davvero calcolare è quali sono le probabilità che " Nessun gruppo di dimensioni 12 avrà solo 2 membri selezionati". Le probabilità che almeno un gruppo ne abbia 2 o meno (quindi si lamenterà della correttezza del sorteggio) sono molto più alte.

Quando eseguo questa simulazione e controllo quante delle prove nessuno dei 30 (= 360/12) gruppi ha avuto 2 o meno selezioni, ottengo circa il 2,3% delle volte. 1:42 è basso ma non impossibile.

Dovresti comunque controllare la procedura del sorteggio poiché potrebbe essere distorta rispetto a un gruppo specifico di persone. Potrebbero essersi riuniti e aver ricevuto un intervallo del sorteggio con meno probabilità (il primo o l'ultimo numero, ad esempio), o qualunque variabile dipendente dalla procedura del sorteggio. Ma se non trovi alcun difetto nella procedura, puoi tornare alle probabilità 1:42 che è semplicemente sfortuna per il gruppo.


Un buon punto, MA (a) sicuramente non tutti i possibili gruppi di 12 hanno abbastanza somiglianza con la materia, e (b) non tutti i gruppi che hanno abbastanza somiglianza con la materia hanno esattamente 12 membri.
ciclista

@zbicyclist, non pretendo che il calcolo sia accurato. Volevo dare un ragionevole dubbio (dato che siamo nel regno della legge con il rilevamento delle frodi), che il sorteggio non è colpevole.
Guy
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.