Errore nella stima della dimensione di un set?


9

Supponiamo di avere un set A e un sottoinsieme B. Se conosciamo | A |, possiamo calcolare | B | trovando la probabilità p che un elemento scelto in modo uniforme a caso da A appartenga a B. Nello specifico | A | p = | B |.

Supponiamo di generare n elementi di A uniformemente a caso e di utilizzare questi dati per stimare p (numero di elementi in B diviso per n) e quindi stimare | B |.

Quanto è affidabile questa stima? Cioè come possiamo calcolare l'errore?

Come domanda secondaria, c'è un nome per questa tecnica? (sembra essere una versione matematica della tecnica mark-and-recapture )


1
È una stima binomiale . (Non vi è alcun segno o riconquista affatto.
Ciò

Risposte:


8

Stai valutando le proporzioni. Per concretezza, immagina che A sia la popolazione degli elettori e B sia l'insieme degli elettori che votano per un determinato candidato. Pertanto, p sarebbe la percentuale di elettori che voterebbero per quel candidato. Permettere:

π è la vera percentuale di persone che voterebbero per il candidato

In altre parole:

π=|B||A|

Quindi ognuno dei tuoi campioni è un processo a bernoulli con probabilità o equivalentemente puoi immaginare che ognuno dei tuoi campioni sia un sondaggio di potenziali elettori che chiede loro se voterebbero per il candidato. Pertanto, il MLE di è dato da:ππ

p=nBn

dove

nB è il numero di persone che hanno dichiarato di voler votare per il candidato o il numero di elementi che appartengono all'insieme B nel campione di dimensionen.

The standard error for your estimate is:

π(1π)n

The above can be approximated by using the MLE for π i.e., by:

p(1p)n

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.