Probabilità di intersezione da più campionamenti della stessa popolazione


10

Ecco un esempio:

  • Ho una popolazione di 10.000 articoli. Ogni articolo ha un ID univoco.
  • Scelgo casualmente 100 elementi e annoto gli ID
  • Ho rimesso i 100 oggetti nella popolazione
  • Scelgo di nuovo a caso 100 articoli, annoto gli ID e li sostituisco.
  • In totale, ripeto questo campionamento casuale 5 volte

Qual è la probabilità che compaia un numero di elementi in tutti e 5 i campionamenti casuali?X

Non sono molto esperto di statistiche. Questo sarebbe corretto per ?X=10

  • Per ogni campionamento, il numero di possibili combinazioni di 100 articoli da 10.000 èbinom(10000,100)
  • Di tutte le possibili combinazioni di 100 elementi, le combinazioni contengono 10 elementi specificibinom(9990,90)binom(100,10)
  • La probabilità di avere 10 oggetti specifici è(binom(9990,90)binom(100,10))/binom(10000,100)
  • La probabilità calcolata alla potenza di 5 rappresenterebbe 5 campionamenti indipendenti.

Quindi, essenzialmente, stiamo solo calcolando 5 probabilità ipergeometriche indipendenti e poi le moltipliciamo insieme? Sento che mi manca un passo da qualche parte.


3
Se ripeti qualcosa una volta, significa che lo fai due volte in tutto. Ripetere qualcosa 5 volte non significa che lo fai 6 volte?
Glen_b -Restate Monica

Risposte:


3

Calcola le possibilità in modo ricorsivo.

Sia la probabilità che siano selezionati esattamente valori , , in tutti i disegni indipendenti di elementi (senza sostituzione) da una popolazione di membri . (Teniamo e fissati per la durata dell'analisi in modo che non debbano essere menzionati esplicitamente.)x 0 x k s 1 k n k > 0 n kps(x)x0xks1knk>0nk

Sia la probabilità che se si selezionano esattamente valori nei primi disegni, allora di essi vengono selezionati nell'ultimo sorteggio. Quindi poiché ci sono di elementi di quegli elementi , e degli elementi rimanenti vengono selezionati separatamente dagli altri membri della popolazione,y s - 1 x yps(xy)ys1xy(yx)xy(nykx)kxny

ps(xy)=(yx)(nykx)(nk).

La legge della probabilità totale afferma

ps(x)=y=xkps(xy)ps1(y).

Per , è una certezza che : questa è la distribuzione iniziale.s=1x=k

Il calcolo complessivo necessario per ottenere la distribuzione completa attraverso ripetizioni è . Non solo è ragionevolmente veloce, ma l'algoritmo è semplice. Una trappola in attesa del programmatore inconsapevole è che queste probabilità possono diventare calcoli in virgola mobile estremamente piccoli e underflow. La seguente implementazione evita ciò calcolando i valori di nelle colonne di un array.sO(k2s)Rlog(ps(x))1,2,,s

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

La risposta alla domanda si ottiene lasciando e . s=5, n=10000=104k=100=102 L'output è un array , ma la maggior parte dei numeri è così piccola che possiamo concentrarci su molto piccola . Ecco le prime quattro righe corrispondenti a :101×5xx=0,1,2,3

p(5, 1e4, 1e2)[1:4, ]

L'output è

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

I valori di indicano le righe mentre i valori di indicano le colonne. La colonna 5 mostra la possibilità che un elemento venga visualizzato in tutti e cinque i campioni sia minuscolo (circa uno su un milione) e sostanzialmente non vi è alcuna possibilità che due o più elementi compaiano in tutti e cinque i campioni.xs

Se vuoi vedere quanto sono piccole queste possibilità, guarda i loro logaritmi. La base 10 è comoda e non abbiamo bisogno di molte cifre:

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

L'output ci dice quanti zeri ci sono dopo il punto decimale:

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0 

I numeri nella riga superiore sono valori di . Ad esempio, la possibilità di visualizzare esattamente tre valori in tutti e cinque i campioni si ottiene calcolando , dando e in effetti questo ha zeri prima del prima cifra significativa. Come controllo, l'ultimo valore è una versione arrotondata di . (che conta le probabilità che il primo campione ricompaia nei prossimi quattro campioni) è uguale axexp(u[4])0.000000000000000000143441918967.0967.26(10000100)410967.26.


0

Mi sono appena imbattuto in un problema simile e, anche se non so se questa è la soluzione corretta, l'ho affrontato in questo modo:

Sei interessato al verificarsi di articoli in 5 campioni á articoli per un totale di articoli. Potresti pensare a un'urna con palle bianche e palle nere. Vengono estratte palline e è la probabilità che tu abbia tutte le palline bianche nel tuo set. Se lo fai volte (indipendentemente), lo moltiplicherei: .X10010,000X10,000X100phX5p=ph5

Potrei anche pensare a un ulteriore passo e avvolgerlo attorno alla distribuzione binomiale: se hai una moneta che esce testa con probabilità (la probabilità che tu abbia tutti gli oggetti nel tuo set) e la lanci volte, qual è il probabilità di ottenere teste? .ph55p=(55)ph5(1ph)55=ph5


0

Qual è la probabilità che compaia un numero di elementi in tutti e 5 i campionamenti casuali?X

Basandosi su ciò che Hans Detto questo, si desidera ottenere sempre le stesse ids in ogni campione di 100 e 100- ids scelti tra il restante 10000- . La probabilità di farlo per un dato campione è data dalla funzione ipergeometrica per successi in un sorteggio di 100 da una popolazione di 10000 con possibili stati di successo: . Per 5 campioni, dovresti prendere .XXXXXP=(XX)(10000X100X)(10000100)P5

Tuttavia, supponiamo che conosciamo gli ID che sono condivisi e ci sono modi per selezionare quegli IDQuindi la tua risposta finale sarebbe .X(10000X)X(10000X)P5


Che cos'è " "? È impossibile capire questa risposta, tanto meno controllarla, fino a quando non la rivelerai! x
whuber

Non ricordo, com'era 3 anni fa, ma presumibilmente la stessa X della domanda?
Hao Ye,

OK. Ma cosa giustifica la tua formula? Controlli semplici, come il caso (per il quale la tua formula ci dice che la probabilità è , escludendo così qualsiasi altra possibilità!), Indicano che non è corretta. X=01
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.