Somma dei coefficienti di distribuzione multinomiale

$\newcommand{\P}{\mathbb{P}}$ Sto lanciando un dado giusto. Ogni volta che ottengo un 1, 2 o 3, scrivo un '1'; ogni volta che ottengo un 4 scrivo un '2'; ogni volta che ottengo un 5 o un 6, scrivo un '3.'

Sia $N$ il numero totale di lanci necessari per il prodotto di tutti i numeri che ho scritto per essere $\geq 100000$ . Voglio calcolare (o approssimativo) $\P(N\geq 25)$ e un'approssimazione può essere data in funzione della distribuzione normale.

Innanzitutto, so che $\P(N\geq 11) = 1$ perché $\log_3 100.000 \approx 10.48$ . Ora, lascia che $a$ , $b$ e $c$ siano il numero di volte in cui ho scritto rispettivamente 1, 2 e 3. Poi:

P (a, b, c ∣ n) = {\begin{cases} (\binom{n}{a, b, c}) {(\frac{1}{2})}^{a} {(\frac{1}{6})}^{b} {(\frac{1}{3})}^{c} & if a + b + c = n \\ 0 & otherwise \end{cases}

$\P(a,b,c\mid n) = \begin{cases}\displaystyle\binom {n}{a, b, c} \left(\frac 1 2\right) ^ a \left(\frac 1 6\right)^b\left(\frac 1 3\right)^c &\text{ if } a + b + c = n \\ 0 &\text{ otherwise}\end{cases}$

Quello che voglio calcolare è:

P (a + b + c \geq 25 ∣ 2^{b} 3^{c} \geq 100000)

$\P(a + b + c \geq 25 \mid 2^b3^c\geq 100000)$

Come posso calcolarlo?

--MODIFICARE:

Quindi mi è stato suggerito di poter sostituire la condizione con:

P (a + b + c \geq 25 ∣ α a + β b + γ c \geq δ)

$\P(a + b + c \geq 25 \mid \alpha a + \beta b + \gamma c \geq \delta)$

dove , , e . $\alpha = 0$ $\beta = \log 2$ $\gamma = \log 3$ $\delta = \log 100000$

Questo sembra più risolvibile! Purtroppo non ho ancora idea di come risolverlo.

— Pedro Carvalho
fonte

+1 Questo problema potrebbe sembrare un po 'più familiare e prestarsi più ovviamente alle soluzioni approssimative, se dovessi scrivere la condizione nella forma dove e .

α a + β b + γ c \geq δ

$\alpha a + \beta b + \gamma c \ge \delta$

α = 0, β = \log (2), γ = \log (3),

$\alpha=0, \beta=\log(2), \gamma=\log(3),$

δ = \log (100000)

$\delta=\log(100000)$

— whuber

Ho aggiunto questo nuovo modo di scrivere la condizione, ma purtroppo non ho ancora la minima idea di come risolverlo!

— Pedro Carvalho,

Un altro suggerimento è che se ci sono occorrenze di '2' allora ti fermerai. Quindi potresti approssimarlo con un binomio negativo con i parametri e (anche con e ). La risposta esatta è anche gestibile in quanto non ci sono molte combinazioni. Inoltre, la condizione non è esatto - è necessario includere tale '2' o '3' è stato registrato sul ° rotolo

17

$17$

17

$17$

0.5

$0.5$

11

$11$

1 / 3

$1/3$

N

$N$

— probabilityislogic

Risposte:

La presente domanda è un caso specifico in cui si ha a che fare con una quantità che è una funzione lineare di una variabile casuale multinomiale. È possibile risolvere esattamente il problema enumerando le combinazioni multinomiali che soddisfano la disuguaglianza richiesta e sommando la distribuzione su tale intervallo. Nel caso in cui sia grande, ciò può diventare non calcolabile dal punto di vista computazionale. In questo caso è possibile ottenere una distribuzione approssimativa usando l'approssimazione normale al multinomiale. Di seguito è mostrata una versione generalizzata di questa approssimazione, quindi questa viene applicata al tuo esempio specifico. $N$

Problema di approssimazione generale: supponiamo di avere una sequenza di variabili casuali intercambiabili con intervallo . Per qualsiasi possiamo formare il vettore di conteggio , che conta il numero di occorrenze di ciascun risultato nei primi valori della sequenza. Poiché la sequenza sottostante è scambiabile, il vettore di conteggio viene distribuito come: $1, 2, ..., m$ $n \in \mathbb{N}$ $\boldsymbol{X} \equiv \boldsymbol{X} (n) \equiv (X_1, X_2, ..., X_m)$ $n$

\begin{array}{ll} X ~ Mu (n, θ) & θ = lim_{n \to \infty} X (n) / n . \end{array}

$\begin{array} \boldsymbol{X} \text{ ~ Mu}(n, \boldsymbol{\theta}) & & \boldsymbol{\theta} = \lim_{n \rightarrow \infty} \boldsymbol{X}(n)/n. \end{array}$

Supponiamo ora di avere un vettore di pesi non negativi e di usare questi pesi per definire la funzione lineare: $\boldsymbol{w} = (w_1, w_2, ..., w_m)$

A (n) \equiv \sum_{i = 1}^{m} w_{i} X_{i} .

$A(n) \equiv \sum_{i=1}^m w_i X_i.$

Poiché i pesi non sono negativi, questa nuova quantità non è decrescente in . Definiamo quindi il numero , che è il numero più piccolo di osservazioni richieste per ottenere un valore minimo specificato per la nostra funzione lineare. Vogliamo approssimare la distribuzione di nel caso in cui questo valore sia (stocasticamente) grande. $n$ $N(a) \equiv \min \{ n \in \mathbb{N} | A(n) \geqslant a \}$ $N(a)$

Risolvere il problema generale di approssimazione: in primo luogo, notiamo che poiché non è decrescente in (che vale perché abbiamo assunto che tutti i pesi siano non negativi), abbiamo: $A(n)$ $n$

P (N (a) ⩾ n) = P (N (a) > n - 1) = P (A (n - 1) < a) .

$\mathbb{P} (N(a) \geqslant n) = \mathbb{P} (N(a) > n - 1) = \mathbb{P} (A(n-1) < a).$

Quindi, la distribuzione di è direttamente collegata alla distribuzione di . Supponendo che la prima quantità sia grande, possiamo approssimare la distribuzione di quest'ultima sostituendo il vettore casuale discreto con un'approssimazione continua dalla distribuzione normale multivariata. Questo porta ad una normale approssimazione per la quantita lineare e possiamo calcolare direttamente i momenti di questa quantità. Per fare ciò, usiamo il fatto che , e per . Con un po 'di algebra di base, questo ci dà: $N$ $A$ $\boldsymbol{X}$ $A(n)$ $\mathbb{E}(X_i) = n \theta_i$ $\mathbb{V}(X_i) = n \theta_i (1 - \theta_i)$ $\mathbb{C}(X_i, X_j) = -n \theta_i \theta_j$ $i \neq j$

μ \equiv E (\frac{1}{n} A (n)) = \sum_{i = 1}^{m} w_{i} θ_{i},

$\mu \equiv \mathbb{E}\left(\frac{1}{n} A(n)\right) = \sum_{i=1}^m w_i \theta_i,$

σ^{2} \equiv V (\frac{1}{\sqrt{n}} A (n)) = \sum_{i = 1}^{m} w_{i} θ_{i} - {(\sum_{i = 1}^{m} w_{i} θ_{i})}^{2} = μ (1 - μ) .

$\sigma^2 \equiv \mathbb{V}\left(\frac{1}{\sqrt{n}} A(n)\right) = \sum_{i=1}^m w_i \theta_i - \left(\sum_{i=1}^m w_i \theta_i\right)^2 = \mu (1 - \mu).$

Prendere l'approssimazione normale al multinomiale ora ci dà la distribuzione approssimativa . Applicando questa approssimazione si ottengono: $A(n) \text{ ~ N} (n \mu, n \mu (1 - \mu))$

P (N (a) ⩾ n) = P (A (n - 1) < a) \approx Φ (\frac{a - (n - 1) μ}{\sqrt{(n - 1) μ (1 - μ)}}) .

$\mathbb{P} (N(a) \geqslant n) = \mathbb{P} (A(n-1) < a) \approx \Phi \left(\frac{a - (n-1) \mu}{\sqrt{(n-1) \mu (1 - \mu)}}\right).$

(Il simbolo è la notazione standard per la normale funzione di distribuzione normale.) È possibile applicare questa approssimazione per trovare le probabilità relative alla quantità per un valore specificato di . Questa è un'approssimazione di base che non ha tentato di incorporare la correzione della continuità sui valori dei valori di conteggio multinomiale sottostanti. Si ottiene prendendo un'approssimazione normale usando gli stessi primi due momenti centrali dell'esatta funzione lineare. $\Phi$ $N(a)$ $a$

Applicazione al tuo problema: nel tuo problema hai probabilità , pesi e valore di cut-off . Quindi hai (arrotondando al primo decimale) . Applicando l'approssimazione di cui sopra (arrotondando a sei decimali): $\boldsymbol{\theta} = (\tfrac{1}{2}, \tfrac{1}{6}, \tfrac{1}{3})$ $\boldsymbol{w} = (0, \ln 2, \ln 3)$ $a = \ln 100000$ $\mu = \tfrac{1}{6}\ln 2 + \tfrac{1}{3}\ln 3 = 0.481729$

P (N (a) ⩾ 25) \approx Φ (\frac{\ln 100000 - 24 \cdot 0.481729}{\sqrt{24} \cdot 0.499666}) = Φ (- 0.019838) = 0.492086.

$\mathbb{P}(N(a) \geqslant 25) \approx \Phi \left(\frac{\ln 100000 - 24 \cdot 0.481729}{\sqrt{24} \cdot 0.499666}\right) =\Phi (-0.019838) = 0.492086.$

Applicando l'esatta distribuzione multinomiale, sommando tutte le combinazioni che soddisfano il requisito , si può dimostrare che il risultato esatto è . Quindi, possiamo vedere che l'approssimazione è abbastanza vicina alla risposta esatta nel caso presente. $\mathbb{P}(A(24) < a)$ $\mathbb{P}(N(a) \geqslant 25) = 0.483500$

Speriamo che questa risposta ti dia una risposta alla tua domanda specifica, ponendola anche all'interno di un quadro più generale di risultati probabilistici che si applicano alle funzioni lineari di vettori casuali multinomiali. Il presente metodo dovrebbe consentirti di ottenere soluzioni approssimative a problemi del tipo generale che stai affrontando, consentendo la variazione dei numeri specifici nel tuo esempio.

— Ben - Ripristina Monica
fonte

Facciamo un'approssimazione normale.

Innanzitutto, riformuliamo completamente il problema nei registri. Si inizia da 0 all'ora t = 0. Quindi, ad ogni passaggio, aggiungi:

0 con probabilità 1/2
$\log(2)$ con probabilità 1/6
$\log(3)$ con probabilità 1/3

Interrompi questo processo quando la tua somma supera a quel punto guardi quanti lanci hai fatto. Il numero di tiri necessari per raggiungere quel punto è ^ $\log(10^5)$ $N$

La mia calcolatrice mi dice che la media dei tuoi incrementi è: e che la varianza è . Per riferimento, il punto finale è a quindi lo raggiungeremo in circa 24 passi $\approx 0.48$ $\approx 0.25$ $\approx 11.51$

In base al fatto che abbiamo fatto 25 passaggi, la distribuzione della somma è approssimativamente un gaussiano centrata su 12,0 e con varianza 6,25. Questo ci dà una approssimazione gaussiana approssimativa di $p(N\geq25)\approx 0.5$

Dovresti guardare i cumulativi della somma a N = 25 per sapere se l'approssimazione gaussiana va bene. Dato che gli incrementi non sono simmetrici, l'approssimazione potrebbe non essere la migliore

— Guillaume Dehaene
fonte

Puoi completare la derivazione per me? Non riesco a vederlo. Inoltre, non esiste un modo esatto per calcolarlo?

— Pedro Carvalho,

Non intendi "log (2)" e "log (3)" dove hai log (1) e log (2)?

— Glen_b

@GuillaumeDehaene ha scritto: .... Secondo il mio calcolo, in due modi diversi, che è molto diverso da 0,5

p (N \geq 25) \approx 0.5

$p(N\geq25)\approx 0.5$

P (N \geq 25) = 1 - P (N \leq 24) = 1 - \frac{1127291856633071}{6499837226778624} \approx 0.8266

$P(N\geq25) = 1 - P(N\leq 24) = 1 - \frac{1127291856633071}{6499837226778624} \approx 0.8266$

— lupi

come si ottiene P (n \ leq24) \ circa 0,18?

— Guillaume Dehaene,