La breve risposta:
Fondamentalmente è più convincente avere 600 su 1000 che sei su 10 perché, date le stesse preferenze, è molto più probabile che 6 su 10 si verifichino per caso.
Partiamo dal presupposto che la proporzione che ha preferito le arance e le mele è effettivamente uguale (quindi, il 50% ciascuno). Chiamalo un'ipotesi nulla. Date queste pari probabilità, la probabilità dei due risultati è:
- Dato un campione di 10 persone, c'è una probabilità del 38% di ottenere casualmente un campione di 6 o più persone che preferiscono le arance (che non è poi così improbabile).
- Con un campione di 1000 persone, vi è meno di 1 su un miliardo di possibilità di avere 600 o più persone su 1000 che preferiscono le arance.
(Per semplicità sto assumendo una popolazione infinita da cui estrarre un numero illimitato di campioni).
Una derivazione semplice
Un modo per ottenere questo risultato è semplicemente elencare i potenziali modi in cui le persone possono combinarsi nei nostri campioni:
Per dieci persone è facile:
Prendi in considerazione la possibilità di prelevare campioni di 10 persone a caso da una popolazione infinita di persone con pari preferenze per mele o arance. A parità di preferenze è facile elencare semplicemente tutte le potenziali combinazioni di 10 persone:
Ecco l'elenco completo.
r C (n=10) p
10 1 0.09766%
9 10 0.97656%
8 45 4.39453%
7 120 11.71875%
6 210 20.50781%
5 252 24.60938%
4 210 20.50781%
3 120 11.71875%
2 45 4.39453%
1 10 0.97656%
0 1 0.09766%
1024 100%
r è il numero di risultati (persone che preferiscono le arance), C è il numero di possibili modi in cui molte persone preferiscono le arance e p è la probabilità discreta che ne risulta di molte persone che preferiscono le arance nel nostro campione.
(p è solo C diviso per il numero totale di combinazioni. Nota che ci sono 1024 modi per organizzare queste due preferenze in totale (cioè 2 alla potenza di 10).
- Ad esempio, esiste un solo modo (un campione) per 10 persone (r = 10) per preferire tutte le arance. Lo stesso vale per tutte le persone che preferiscono le mele (r = 0).
- Esistono 10 diverse combinazioni che ne determinano nove preferendo le arance. (Una persona diversa preferisce le mele in ciascun campione).
- Ci sono 45 campioni (combinazioni) in cui 2 persone preferiscono mele, ecc. Ecc.
(In generale parliamo di n C r combinazioni di risultati r da un campione di n persone. Ci sono calcolatori online che puoi usare per verificare questi numeri.)
Questo elenco ci consente di darci le probabilità sopra usando solo la divisione. C'è una probabilità del 21% di ottenere 6 persone nel campione che preferiscono le arance (210 su 1024 delle combinazioni). La possibilità di ottenere sei o più persone nel nostro campione è del 38% (la somma di tutti i campioni con sei o più persone, o 386 combinazioni su 1024).
Graficamente, le probabilità si presentano così:
Con numeri più grandi, il numero di potenziali combinazioni cresce rapidamente.
Per un campione di sole 20 persone ci sono 1.048.576 possibili campioni, tutti con uguale probabilità. (Nota: ho mostrato solo ogni seconda combinazione di seguito).
r C (n=20) p
20 1 0.00010%
18 190 0.01812%
16 4,845 0.46206%
14 38,760 3.69644%
12 125,970 12.01344%
10 184,756 17.61971%
8 125,970 12.01344%
6 38,760 3.69644%
4 4,845 0.46206%
2 190 0.01812%
0 1 0.00010%
1,048,576 100%
C'è ancora solo un campione in cui tutte e 20 le persone preferiscono le arance. Le combinazioni che presentano risultati misti sono molto più probabili, semplicemente perché ci sono molti più modi in cui le persone nei campioni possono essere combinate.
I campioni distorti sono molto più improbabili, solo perché ci sono meno combinazioni di persone che possono risultare in quei campioni:
Con solo 20 persone in ciascun campione, la probabilità cumulativa di avere il 60% o più (12 o più) persone nel nostro campione preferendo le arance scende a solo il 25%.
La distribuzione di probabilità può essere vista diventare più sottile e più alta:
Con 1000 persone i numeri sono enormi
Possiamo estendere gli esempi sopra a campioni più grandi (ma i numeri crescono troppo rapidamente perché sia possibile elencare tutte le combinazioni), invece ho calcolato le probabilità in R:
r p (n=1000)
1000 9.332636e-302
900 5.958936e-162
800 6.175551e-86
700 5.065988e-38
600 4.633908e-11
500 0.02522502
400 4.633908e-11
300 5.065988e-38
200 6.175551e-86
100 5.958936e-162
0 9.332636e-302
La probabilità cumulativa di avere 600 o più su 1000 persone preferisce le arance è solo 1.364232e-10.
La distribuzione delle probabilità è ora molto più concentrata attorno al centro:
[
(Ad esempio per calcolare la probabilità di esattamente 600 su 1000 persone che preferiscono le arance nell'uso R dbinom(600, 1000, prob=0.5)
che equivale a 4.633908e-11, e la probabilità di 600 o più persone è 1-pbinom(599, 1000, prob=0.5)
, che equivale a 1.364232e-10 (meno di 1 su un miliardo).