La presente domanda è un caso specifico in cui si ha a che fare con una quantità che è una funzione lineare di una variabile casuale multinomiale. È possibile risolvere esattamente il problema enumerando le combinazioni multinomiali che soddisfano la disuguaglianza richiesta e sommando la distribuzione su tale intervallo. Nel caso in cui sia grande, ciò può diventare non calcolabile dal punto di vista computazionale. In questo caso è possibile ottenere una distribuzione approssimativa usando l'approssimazione normale al multinomiale. Di seguito è mostrata una versione generalizzata di questa approssimazione, quindi questa viene applicata al tuo esempio specifico.N
Problema di approssimazione generale: supponiamo di avere una sequenza di variabili casuali intercambiabili con intervallo . Per qualsiasi possiamo formare il vettore di conteggio , che conta il numero di occorrenze di ciascun risultato nei primi valori della sequenza. Poiché la sequenza sottostante è scambiabile, il vettore di conteggio viene distribuito come:n ∈ N X ≡ X ( n ) ≡ ( X 1 , X 2 , . . . , X m ) n1,2,...,mn∈NX≡X(n)≡(X1,X2,...,Xm)n
X ~ Mu(n,θ)θ=limn→∞X(n)/n.
Supponiamo ora di avere un vettore di pesi non negativi e di usare questi pesi per definire la funzione lineare:w=(w1,w2,...,wm)
A(n)≡∑i=1mwiXi.
Poiché i pesi non sono negativi, questa nuova quantità non è decrescente in . Definiamo quindi il numero , che è il numero più piccolo di osservazioni richieste per ottenere un valore minimo specificato per la nostra funzione lineare. Vogliamo approssimare la distribuzione di nel caso in cui questo valore sia (stocasticamente) grande.N ( a ) ≡ min { n ∈ N | A ( n ) ⩾ a }nN(a)≡min{n∈N|A(n)⩾a}N(a)
Risolvere il problema generale di approssimazione: in primo luogo, notiamo che poiché non è decrescente in (che vale perché abbiamo assunto che tutti i pesi siano non negativi), abbiamo:nA(n)n
P(N(a)⩾n)=P(N(a)>n−1)=P(A(n−1)<a).
Quindi, la distribuzione di è direttamente collegata alla distribuzione di . Supponendo che la prima quantità sia grande, possiamo approssimare la distribuzione di quest'ultima sostituendo il vettore casuale discreto con un'approssimazione continua dalla distribuzione normale multivariata. Questo porta ad una normale approssimazione per la quantita lineare e possiamo calcolare direttamente i momenti di questa quantità. Per fare ciò, usiamo il fatto che , e per . Con un po 'di algebra di base, questo ci dà:A X A ( n ) E ( X i ) = n θ i V ( X i ) = n θ i ( 1 - θ i ) C ( X i , X j ) = - n θ i θ j i ≠ jNAXA(n)E(Xi)=nθiV(Xi)=nθi(1−θi)C(Xi,Xj)=−nθiθji≠j
μ≡E(1nA(n))=∑i=1mwiθi,
σ2≡V(1n−−√A(n))=∑i=1mwiθi−(∑i=1mwiθi)2=μ(1−μ).
Prendere l'approssimazione normale al multinomiale ora ci dà la distribuzione approssimativa . Applicando questa approssimazione si ottengono:A(n) ~ N(nμ,nμ(1−μ))
P(N(a)⩾n)=P(A(n−1)<a)≈Φ(a−(n−1)μ(n−1)μ(1−μ)−−−−−−−−−−−−−√).
(Il simbolo è la notazione standard per la normale funzione di distribuzione normale.) È possibile applicare questa approssimazione per trovare le probabilità relative alla quantità per un valore specificato di . Questa è un'approssimazione di base che non ha tentato di incorporare la correzione della continuità sui valori dei valori di conteggio multinomiale sottostanti. Si ottiene prendendo un'approssimazione normale usando gli stessi primi due momenti centrali dell'esatta funzione lineare.N ( a ) aΦN(a)a
Applicazione al tuo problema: nel tuo problema hai probabilità , pesi e valore di cut-off . Quindi hai (arrotondando al primo decimale) . Applicando l'approssimazione di cui sopra (arrotondando a sei decimali):w=(0,ln2,ln3)a=ln100000μ=1θ=(12,16,13)w=(0,ln2,ln3)a=ln100000μ=16ln2+13ln3=0.481729
P(N(a)⩾25)≈Φ(ln100000−24⋅0.48172924−−√⋅0.499666)=Φ(−0.019838)=0.492086.
Applicando l'esatta distribuzione multinomiale, sommando tutte le combinazioni che soddisfano il requisito , si può dimostrare che il risultato esatto è . Quindi, possiamo vedere che l'approssimazione è abbastanza vicina alla risposta esatta nel caso presente.P ( N ( a ) ⩾ 25 ) = 0.483500P(A(24)<a)P(N(a)⩾25)=0.483500
Speriamo che questa risposta ti dia una risposta alla tua domanda specifica, ponendola anche all'interno di un quadro più generale di risultati probabilistici che si applicano alle funzioni lineari di vettori casuali multinomiali. Il presente metodo dovrebbe consentirti di ottenere soluzioni approssimative a problemi del tipo generale che stai affrontando, consentendo la variazione dei numeri specifici nel tuo esempio.