Qual è la distribuzione dei vari dadi poliedrici lanciati tutti in una volta?


15

Prendi i 5 solidi platonici da un set di dadi Dungeons & Dragons. Questi consistono in dadi a 4 facce, a 6 facce (convenzionali), a 8 facce, a 12 facce e a 20 facce. Tutti iniziano dal numero 1 e contano verso l'alto di 1 per il loro totale.

Tirali tutti in una volta, prendi la loro somma (la somma minima è 5, il massimo è 50). Fallo più volte. Qual è la distribuzione?

Ovviamente tenderanno verso la fascia bassa, poiché ci sono numeri più bassi che più alti. Ma ci saranno notevoli punti di flesso su ciascun confine del singolo dado?

[Modifica: Apparentemente, ciò che sembrava ovvio non lo è. Secondo uno dei commentatori, la media è (5 + 50) /2=27.5. Non me lo aspettavo. Mi piacerebbe ancora vedere un grafico.] [Modifica2: Ha più senso vedere che la distribuzione di n dadi è uguale a ogni dado separato, sommato insieme.]


1
Vuoi dire qual è la distribuzione della somma delle uniformi discrete [1,4]+[1,6]+[1,8]+[1,12]+[1,20] ?
gung - Ripristina Monica

2
Un modo per esaminarlo è la simulazione. In R: hist(rowSums(sapply(c(4, 6, 8, 12, 20), sample, 1e6, replace = TRUE))). In realtà non tende verso la fascia bassa; dei possibili valori da 5 a 50, la media è 27,5 e la distribuzione è (visivamente) non lontana dalla normalità.
David Robinson,

2
Il mio set D&D ha un d10 e il 5 che menzioni (più un decader, che presumo tu non includa)
Glen_b -Reinstate Monica

1
Wolfram Alpha calcola esattamente la risposta . Ecco la funzione di generazione della probabilità , da cui è possibile leggere direttamente la distribuzione. A proposito, questa domanda è un caso speciale di uno che viene posto e completamente risposto a stats.stackexchange.com/q/3614 e a stats.stackexchange.com/questions/116792 .
whuber

2
@AlecTeal: Facile, ragazzo duro. Se facessi le tue ricerche, vedresti che non avevo un computer per eseguire la simulazione da solo. E rotolare 100 volte, non sembrava efficace per una domanda così semplice.
Marcos,

Risposte:


18

Non vorrei farlo algebricamente, ma puoi calcolare il pmf in modo abbastanza semplice (è solo una convoluzione, che è davvero facile in un foglio di calcolo).

Li ho calcolati in un foglio di calcolo *:

i        n(i)   100 p(i)
5         1     0.0022
6         5     0.0109
7        15     0.0326
8        35     0.0760
9        69     0.1497
10      121     0.2626
11      194     0.4210
12      290     0.6293
13      409     0.8876
14      549     1.1914
15      707     1.5343
16      879     1.9076
17     1060     2.3003
18     1244     2.6997
19     1425     3.0924
20     1597     3.4657
21     1755     3.8086
22     1895     4.1124
23     2014     4.3707
24     2110     4.5790
25     2182     4.7352
26     2230     4.8394
27     2254     4.8915
28     2254     4.8915
29     2230     4.8394
30     2182     4.7352
31     2110     4.5790
32     2014     4.3707
33     1895     4.1124
34     1755     3.8086
35     1597     3.4657
36     1425     3.0924
37     1244     2.6997
38     1060     2.3003
39      879     1.9076
40      707     1.5343
41      549     1.1914
42      409     0.8876
43      290     0.6293
44      194     0.4210
45      121     0.2626
46       69     0.1497
47       35     0.0760
48       15     0.0326
49        5     0.0109
50        1     0.0022

Qui è il numero di modi per ottenere ogni i totale ; p ( i ) è la probabilità, dove p ( i ) = n ( i ) / 46080 . I risultati più probabili si verificano meno del 5% delle volte.n(i)ip(i)p(i)=n(i)/46080

L'asse y è la probabilità espressa in percentuale. inserisci qui la descrizione dell'immagine

* Il metodo che ho usato è simile alla procedura descritta qui , anche se i meccanismi esatti coinvolti nell'impostazione cambiano man mano che cambiano i dettagli dell'interfaccia utente (quel post ha circa 5 anni ormai sebbene lo abbia aggiornato circa un anno fa). E questa volta ho usato un pacchetto diverso (questa volta l'ho fatto in Calc di LibreOffice). Comunque, questo è il senso.


Incredibile, non mi aspettavo una distribuzione simmetrica. Non sono sicuro del perché la mia intuizione fosse così lontana.
Marcos,

6
Anche la somma delle variabili casuali simmetriche indipendenti è simmetrica nella distribuzione.
Glen_b -Restate Monica

Bella regola. È pubblicato da qualche parte?
Marcos,

3
Sì, ma il mio punto era che era troppo banale per avere un diario per pubblicarlo, sarebbe stato impostato solo come esercizio per uno studente. Puoi usare il fatto che la funzione caratteristica di una variabile casuale simmetrica attorno all'origine è reale e uniforme (il fatto che puoi trovare indicato nella pagina di wikipedia sulla funzione caratteristica ) - beh, e immagino tu abbia bisogno di quella -to-one anche di cfs vs pmfs, oppure usa la doppia relazione per stabilire che un cf pari implica anche un pmf simmetrico ...
Glen_b -Reinstate Monica

2
... e il fatto che un prodotto di funzioni pari sia pari, ma in realtà è abbastanza ovvio solo dalla considerazione diretta di come funziona la convoluzione - in una convoluzione di due funzioni simmetriche (pmfs in questo caso), per ogni termine nella somma di prodotti a un'estremità c'è un termine corrispondente della stessa dimensione all'altra estremità, posto simmetricamente attorno al centro.
Glen_b -Restate Monica

7

Quindi ho creato questo codice:

d4 <- 1:4  #the faces on a d4
d6 <- 1:6  #the faces on a d6
d8 <- 1:8  #the faces on a d8
d10 <- 1:10 #the faces on a d10 (not used)
d12 <- 1:12 #the faces on a d12
d20 <- 1:20 #the faces on a d20

N <- 2000000  #run it 2 million times
mysum <- numeric(length = N)

for (i in 1:N){
     mysum[i] <- sample(d4,1)+
                 sample(d6,1)+
                 sample(d8,1)+
                 sample(d12,1)+
                 sample(d20,1)
}

#make the plot
hist(mysum,breaks = 1000,freq = FALSE,ylim=c(0,1))
grid()

Il risultato è questa trama. inserisci qui la descrizione dell'immagine

È piuttosto gaussiano. Penso che (di nuovo) potremmo aver dimostrato una variazione sul teorema del limite centrale.


2
Hmm, il tiro più basso nella tua simulazione è 6. La probabilità di lanciarlo (o qualsiasi singolo tiro, preservando l'identità del dado) è 1: 4 * 1: 6 * 1: 8 * 1: 10 * 1: 12 * 1: 20 = 1: 460.800. Le mie procedure richiederebbero una dimensione del campione N almeno due volte (forse 4x) questo importo (come un limite di Nyquist) per rivelare eventuali errori nella mia modellazione.
Marcos,

La mia esperienza con Nyquist dice anche 4x il minimo. ... fatto. Se 2 milioni non bastano, fammi sapere cosa dovrebbe essere.
EngrStudent - Ripristina Monica il

3
n

1
@EngrStudent: A proposito, il tuo risultato non conferma CLT?
Marcos,

1
@theDoctor no, non conferma il CLT per una serie di motivi
Glen_b -Reinstate Monica

7

Un piccolo aiuto per il tuo intuito:

Innanzitutto, considera cosa succede se ne aggiungi uno a tutte le facce di un dado, ad esempio il d4. Quindi, invece di 1,2,3,4, i volti ora mostrano 2,3,4,5.

Confrontando questa situazione con l'originale, è facile vedere che la somma totale è ora superiore di una volta. Ciò significa che la forma della distribuzione è invariata, è solo spostata di un passo verso il lato.

Ora sottrai il valore medio di ogni dado da ogni lato di quel dado.

Questo dà i dadi segnati

  • 32121232
  • 523212123252
  • 7252321212325272

eccetera.

Ora, la somma di questi dadi dovrebbe avere ancora la stessa forma dell'originale, spostata solo verso il basso. Dovrebbe essere chiaro che questa somma è simmetrica intorno allo zero. Pertanto anche la distribuzione originale è simmetrica.


4

P(X=i)=p(io)
Xio0,1,...,n. Quindi la probabilità di due occhi, diciamo, è nella terza componente vettoriale. Quindi un dado standard ha una distribuzione data dal vettore(0,1/6,1/6,1/6,1/6,1/6,1/6). La funzione generatrice di probabilità (pgf) viene quindi data dap(t)=Σ06p(io)tio. Lascia che il secondo dado abbia distribuzione data dal vettoreq(j) con j nel raggio di azione 0,1,...,m. Quindi la distribuzione della somma degli occhi su due tiri di dado indipendenti dati dal prodotto del pgf,p(t)q(t). Scrivendo questo prodotto possiamo vedere che è dato dalla convoluzione delle sequenze di coefficienti, quindi può essere trovato dalla funzione R convolve (). Proviamo questo con due tiri di dadi standard:
> p  <-  q  <-  c(0, rep(1/6,6))
> pq  <-  convolve(p,rev(q),type="open")
> zapsmall(pq)
 [1] 0.00000000 0.00000000 0.02777778 0.05555556 0.08333333 0.11111111
 [7] 0.13888889 0.16666667 0.13888889 0.11111111 0.08333333 0.05555556
[13] 0.02777778

e puoi verificare che sia corretto (con il calcolo manuale). Ora per la vera domanda, cinque dadi con 4,6,8,12,20 lati. Farò il calcolo assumendo puntelli uniformi per ogni dado. Poi:

> p1  <-  c(0,rep(1/4,4))
> p2 <-  c(0,rep(1/6,6))
> p3 <-  c(0,rep(1/8,8))
> p4  <-  c(0, rep(1/12,12))
> p5  <-  c(0, rep(1/20,20))
> s2  <-  convolve(p1,rev(p2),type="open")
> s3 <-  convolve(s2,rev(p3),type="open")
> s4 <-  convolve(s3,rev(p4),type="open")
> s5 <- convolve(s4, rev(p5), type="open")
> sum(s5)
[1] 1
> zapsmall(s5)
 [1] 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 0.00002170
 [7] 0.00010851 0.00032552 0.00075955 0.00149740 0.00262587 0.00421007
[13] 0.00629340 0.00887587 0.01191406 0.01534288 0.01907552 0.02300347
[19] 0.02699653 0.03092448 0.03465712 0.03808594 0.04112413 0.04370660
[25] 0.04578993 0.04735243 0.04839410 0.04891493 0.04891493 0.04839410
[31] 0.04735243 0.04578993 0.04370660 0.04112413 0.03808594 0.03465712
[37] 0.03092448 0.02699653 0.02300347 0.01907552 0.01534288 0.01191406
[43] 0.00887587 0.00629340 0.00421007 0.00262587 0.00149740 0.00075955
[49] 0.00032552 0.00010851 0.00002170
> plot(0:50,zapsmall(s5))

La trama è mostrata di seguito:

enter image description here

Ora puoi confrontare questa soluzione esatta con le simulazioni.


1

Il teorema del limite centrale risponde alla tua domanda. Sebbene i suoi dettagli e le sue prove (e quell'articolo di Wikipedia) siano in qualche modo strabilianti, l'essenza di questo è semplice. Per Wikipedia, afferma che

la somma di un numero di variabili casuali indipendenti e distribuite in modo identico con varianze finite tenderà a una distribuzione normale con l'aumentare del numero di variabili.

Schizzo di una prova per il tuo caso:

Quando dici "tira tutti i dadi contemporaneamente", ogni lancio di tutti i dadi è una variabile casuale.

Sui tuoi dadi sono stampati numeri finiti. La somma dei loro valori ha quindi una varianza finita.

Ogni volta che tiri tutti i dadi, la distribuzione della probabilità del risultato è la stessa. (I dadi non cambiano tra i tiri.)

Se tiri i dadi in modo equo, ogni volta che li lanci, il risultato è indipendente. (I tiri precedenti non influiscono sui tiri futuri.)

Indipendente? Dai un'occhiata. Distribuito in modo identico? Dai un'occhiata. Varianza finita? Dai un'occhiata. Pertanto la somma tende a una distribuzione normale.

Non importa nemmeno se la distribuzione per un lancio di tutti i dadi fosse sbilenco verso la parte bassa. Non mi importa se ci fossero cuspidi in quella distribuzione. Tutte le somme lo appianano e lo rendono un gaussiano simmetrico. Non è nemmeno necessario eseguire alcuna algebra o simulazione per dimostrarlo! Questa è la sorprendente intuizione del CLT.


3
Mentre il CLT è rilevante e, come mostrano gli altri post, le distribuzioni sono approssimativamente gaussiane, abbiamo a che fare solo con la somma di 5 distribuzioni indipendenti non identiche . Quindi il punto 1) 5 non è abbastanza grande da invocare un teorema che si applica "all'infinito". Punto 2) non puoi usare il vanilla CLt, perché le cose che sommi non sono iid. Hai bisogno del CLT di Lyapunov, credo.
Peter

2
Non è necessario il Teorema del limite centrale per dire che la somma di alcune variabili casuali indipendenti con distribuzioni simmetriche sui rispettivi centri ha una distribuzione simmetrica sulla somma dei centri.
Henry,

@Peter: ti manca la struttura della mia prova. L'OP dice "tirali tutti in una volta". Sto prendendo ogni lancio di tutti i dadi come una variabile casuale. Queste variabili casuali hanno una distribuzione identica. Non è necessario Lyapunov. Inoltre, l'OP dice "fallo più volte", che intendo per "nel limite", quindi il tuo punto n. 1 non è valido. Non stiamo solo sommando un tiro di 5 dadi qui.
Paul Cantrell,

2
@PaulCantrell Ogni lancio di tutti i dadi è la somma di cinque variabili indipendenti non identicamente distribuite. L'OP chiede informazioni sulla distribuzione di tale somma. Puoi fare molti tiri dei 5 dadi, ma questo è solo un campionamento dalla distribuzione in questione, nessuno sta sommando quei campioni.
Peter

1
@PaulCantrell I guess it depends on how you interpret "Do so multiple times." Do so multiple times, and them sum again (getting a single value), or do so multiple times and look at the histogram of those samples (getting multiple values). I took the latter interpretation.
Peter
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.