Qual è la distribuzione della cardinalità dell'intersezione di campioni casuali indipendenti senza sostituzione?


10

n N un 1 , un 2 , . . . , a m nS è un insieme di elementi e sono numeri interi positivi fissi inferiori o uguali a .nNa1,a2,...,amn

Con gli elementi di ugualmente probabili, campioni sono separatamente e indipendentemente da senza sostituzione, le cui dimensioni sono rispettivamente .m L 1 , L 2 , . . . , L m S un 1 , un 2 , . . . , un mSmL1,L2,...,LmSa1,a2,...,am

La cardinalità dell'intersezione dei campioniha, in generale, un supporto pari a , ma quale distribuzione segue?|L1L2 ... Lm|{0,1,...,min{a1,a2,...,am}}


Posso fornirti una ricetta per calcolarlo in modo ricorsivo ma non sono a conoscenza di una soluzione a forma chiusa. Basterebbe questo, o vuoi un'espressione esplicita della funzione di distribuzione dato a1,,am e n ?
Bridgeburners

@Bridgeburners Una ricetta sarebbe buona, almeno fornirebbe un metodo / modo per attaccare questo problema e relativi.
ll

Risposte:


3

Ecco un altro approccio, che non prevede la ricorsione. Tuttavia utilizza ancora somme e prodotti le cui lunghezze dipendono dai parametri. Prima darò l'espressione, poi spiegherò.

Abbiamo

P(|L1L2Lm|=k)=(nk)i=1n(nai)j=0min(a1,,am)k(1)j(nkj)l=1n(njkaljk).

EDIT: Alla fine della stesura di tutto ciò, mi sono reso conto che possiamo consolidare un po 'l'espressione sopra combinando i coefficienti binomiali in probabilità ipergeometriche e coefficienti trinomiali. Per quello che vale, l'espressione rivista è Qui è una variabile casuale ipergeometrica in cui disegni sono presi da una popolazione di dimensioni con stati di successo .Hyp(n,j+k,al)alnj+k

j=0min(a1,,am)k(1)j(nj,k,njk)l=1nP(Hyp(n,j+k,al)=j+k).
Hyp(n,j+k,al)alnj+k

Derivazione

Prendiamo qualche nota per rendere gli argomenti combinatori un po 'più facili da tracciare (si spera). In tutto, consideriamo e fissi. Useremo per indicare la raccolta di -tuple ordinate , dove ogni , soddisfacentea 1 , , a m C ( I ) m ( L 1 , , L m ) L iSSa1,,amC(I)m(L1,,Lm)LiS

  • |Li|=ai ; e
  • L1Lm=I .

Useremo anche per una raccolta identica, tranne per il fatto che richiediamo invece di uguaglianza. L 1 L mIC(I)L1LmI

Un'osservazione chiave è che è relativamente facile da contare. Questo perché la condizione è equivalente a per tutti , quindi in un certo senso ciò rimuove le interazioni tra diversi valori . Per ogni , il numero di soddisfa il requisito è , poiché possiamo costruire tale scegliendo un sottoinsieme di di dimensionee poi l'unione con . Ne consegue che C(I)L iI i i i L i ( | S | - | I |L1LmILiIiiiLiLiSI(|S||I|ai|I|)LiSIIo | C ( I ) | = n i = 1 ( | S | - | I |ai|I|I

|C(I)|=i=1n(|S||I|ai|I|).

Ora la nostra probabilità originale può essere espressa tramite come segue: C

P(|L1L2Lm|=k)=I:|I|=k|C(I)|all IS|C(I)|.

Possiamo fare subito due semplificazioni. Innanzitutto, il denominatore è lo stesso di secondo luogo, un argomento di permutazione mostra chedipende solo da attraverso la cardinalità. Poiché ci sono sottoinsiemi di con cardinalità , ne consegue che dove è un sottoinsieme arbitrario e fisso di con cardinalità| C(I)| Io| Io| (n

|C()|=i=1n(|S|ai)=i=1n(nai).
|C(I)|I|I| SkI:| Io| =k| C(I)| = ( n(nk)SkI0Sk
I:|I|=k|C(I)|=(nk)|C(I0)|,
I0Sk .

Facendo un passo indietro, ora abbiamo ridotto il problema mostrando che

|C(I0)|=j=0min(a1,,am)k(1)j(nkj)l=1n(njkaljk).

Sia i sottoinsiemi distinti di formati aggiungendo esattamente un elemento a . Quindi (Questo sta solo dicendo che se , allora contiene ma non contiene alcun elemento aggiuntivo.) Ora abbiamo trasformato il problema di conteggio in un problema di conteggio , che sappiamo di più come gestire. Più specificamente, abbiamo S I 0 C ( I 0 )J1,,JnkSI0L 1L m = I 0 L 1L m I 0 C

C(I0)=C(I0)(i=1nkC(Ji)).
L1Lm=I0L1LmI0C| C ( I 0 ) | = | C ( I 0 ) | - | n - k i = 1 C ( J i ) | = n l = 1 ( n - kC
|C(I0)|=|C(I0)||i=1nkC(Ji)|=l=1n(nkalk)|i=1nkC(Ji)|.

Possiamo applicare l'inclusione-esclusione per gestire la dimensione dell'espressione sindacale sopra. La relazione cruciale qui è che, per qualsiasi non vuoto , Questo perché se contiene un numero di , allora contiene anche la loro unione. Notiamo anche che il set ha dimensioni. Perciò i I C (I{1,,nk}

iIC(Ji)=C(iIJi).
L1LmJiiIJi|I0|+|I|=k+|I|
|i=1nkC(Ji)|=I{1,,nk}(1)|I|1|iIC(Ji)|=j=1nkI:|I|=j(1)j1l=1n(njkaljk)=j=1nk(1)j1(nkj)l=1n(njkaljk).
( Qui possiamo limitare i valori poiché il prodotto dei coefficienti binomiali è zero a meno che per tutto , ovvero .)jjalkljmin(a1,,am)k

Infine, sostituendo l'espressione alla fine nell'equazione persopra e consolidando la somma, otteniamo come rivendicato.|C(I0)|

|C(I0)|=j=0min(a1,,am)k(1)j(nkj)l=1n(njkaljk)

+1 per tutto lo sforzo e la soluzione, ma dovrò perfezionare la mia matematica per capire la maggior parte di questo (e l'altra risposta). Grazie
ll

4

Non sono a conoscenza di un modo analitico per risolverlo, ma ecco un modo ricorsivo per calcolare il risultato.

Per stai scegliendo elementi tra dei quali sono stati scelti in precedenza. La probabilità di scegliere elementi che si intersecano con nella seconda estrazione è data dalla distribuzione ipergeometrica:m=2a2n, a1kmin{a1,a2}L1

P(kn,a1,a2)=(a1k)(na1a2k)(na2).

Possiamo chiamare il risultatoPossiamo usare la stessa logica per trovare dove è la cardinalità dell'intersezione di tre campioni. Poi,b2.P(b3=kn,b2,a3),b3

P(b3=k)=l=0min(a1,a2)P(b3=kn,b2=l,a3)P(b2=ln,a1,a2).

Trova questo per ogni . Quest'ultimo calcolo non è numericamente difficile, poiché è semplicemente il risultato del calcolo precedente e è un'invocazione di la distribuzione ipergeometrica.k{0,1,2,,min(a1,a2,a3)}P(b2=ln,a1,a2)P(b3=kn,b2=l,a3)

In generale, per trovare è possibile applicare le seguenti formule ricorsive: per e vale a dire cheP ( b i = k ) = minP(bm)

P(bi=k)=l=0min(a1,a2,,ai1)P(bi=kn,bi1=l,ai)P(bi1=l),
i{2,3,,m},P(b1)=δa1b1,b1=a1.
P(bi=kn,bi1=l,ai)=(lk)(nlaik)(nai),
i{2,3,,m},
P(b1)=δa1b1,
b1=a1.

Eccolo in R:

hypergeom <- function(k, n, K, N) choose(K, k) * choose(N-K, n-k) / choose(N, n)

#recursive function for getting P(b_i) given P(b_{i-1})
PNext <- function(n, PPrev, ai, upperBound) {
  l <- seq(0, upperBound, by=1)
  newUpperBound <- min(ai, upperBound)
  kVals <- seq(0, newUpperBound, by=1)
  PConditional <- lapply(kVals, function(k) {
    hypergeom(k, ai, l, n)
  })
  PMarginal <- unlist(lapply(PConditional, function(p) sum(p * PPrev) ))
  PMarginal
}

#loop for solving P(b_m)
P <- function(n, A, m) {
  P1 <- c(rep(0, A[1]), 1)
  if (m==1) {
    return(P1)
  } else {
    upperBound <- A[1]
    P <- P1
    for (i in 2:m) {
      P <- PNext(n, P, A[i], upperBound)
      upperBound <- min(A[i], upperBound)
    }
    return(P)
  }
}

#Example
n <- 10
m <- 5
A <- sample(4:8, m, replace=TRUE)
#[1] 6 8 8 8 5

round(P(n, A, m), 4)
#[1] 0.1106 0.3865 0.3716 0.1191 0.0119 0.0003
#These are the probabilities ordered from 0 to 5, which is the minimum of A

Grazie per la tua soluzione e il tuo codice. Aspetto che si avvicinino altre risposte (se arrivano) prima di assegnare la taglia.
ll
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.