Aspettativa della somma dei numeri K senza sostituzione


9

Dati numeri, in cui il valore di ciascun numero è diverso, indicato come e la probabilità di selezionare ciascun numero è rispettivamente .nv1,v2,...,vnp1,p2,...,pn

Ora, se seleziono i numeri base alle probabilità date, dove , qual è l'aspettativa della somma di quei numeri ? Si noti che la selezione è senza sostituzione, quindi i numeri non possono comportare numeri duplicati. Comprendo che se la selezione è con sostituzione, l'aspettativa della somma dei numeri uguale a , doveKKnKKKK×E(V)

E(V)=v1×p1+v2×p2+...+vn×pn.

Inoltre, che dire dell'aspettativa della varianza di quei numeri ?K

Sono uno studente di dottorato di ricerca in CS che sta lavorando a un problema relativo ai big data e non ho alcun background statistico. Mi aspetto che qualcuno possa darmi una formula come risposta. Tuttavia, se la risposta è troppo complicata per essere descritta da una formula o deve essere coinvolto un calcolo intensivo, una risposta approssimativa è totalmente accettabile.

Puoi assumere qui è abbastanza grande e la probabilità può variare molto. In pratica, i valori di tali probabilità provengono da un registro delle query, che registra una serie di query di aggregazione. Il punto è che la frequenza di ciascun numero coinvolto nelle query può essere piuttosto distorta, cioè alcuni vengono interrogati raramente, mentre altri vengono interrogati molto frequentemente. Puoi presumere che la distribuzione di probabilità sia normale, zipf o qualsiasi altra alternativa ragionevole.n

La distribuzione del valore è solo un sottoinsieme contiguo di ogni possibile distribuzione. In altre parole, se si dispone di un istogramma che rappresenta una determinata distribuzione, tutti i numeri coinvolti in questo problema sono i numeri tutti all'interno di un singolo bucket.

In termini di valore di K, si può presumere che sia sempre inferiore al numero di elementi frequentemente interrogati.


3
L'aspettativa della varianza della somma sarà diversa senza sostituzione; avrai bisogno di un fattore di correzione della popolazione finito se non c'è sostituzione. (Per vedere questo intuitivamente, nota che se K = n la varianza della somma è zero, perché sarà sempre lo stesso numero; così come K si avvicina a n la varianza della somma sarà inferiore.)
zbicyclist

1
Questa domanda potrebbe essere più complicata di quanto sembri. Considera il caso e . La somma prevista di due valori estratti con la sostituzione è che è il doppio della somma prevista di un valore ovviamente; ma la somma prevista di due valori disegnati senza sostituzione ovviamente è tranne quando . n=2(v1,v2)=(0,1)2p2v1+v2=12p2p1=p2=1/2
whuber

1
@zbicyclist Forse non ho indicato chiaramente il problema. Nel mio scenario, se K = N, la varianza di quei numeri K sarà la varianza della popolazione generale piuttosto che 0.
SciPioneer

1
(1) Non mi sembra una domanda di autoapprendimento : sembra un vero problema applicato nella probabilità. (2) Quanto grande potrebbe essere ? Le soluzioni esatte sembrano impraticabili tranne quando è possibile elencare tutti i sottoinsiemi. (3) Se potrebbe essere molto più grande di o giù di lì, precludendo una rapida enumerazione, cosa puoi dire del ? Ad esempio, potrebbero variare o saranno tutti abbastanza vicini a ? Questo potrebbe informare gli sforzi per trovare risposte approssimative. nn20pi1/n
whuber

1
Grazie per le modifiche. Più puoi parlarci di , , e , meglio è. Ad esempio, se formule per il campionamento con la sostituzione dovrebbero essere buone approssimazioni (poiché pochissimi valori, se presenti, verrebbero selezionati più di una volta). Credo che i casi più difficili siano quelli in cui esiste una vasta gamma di valori di - così che non si può semplicemente sostituire la maggior parte di essi con zeri e tuttavia con per un numero apprezzabile di - e . NKvipiKmax(pi)1pipi>1/KiKN/2
whuber

Risposte:


2

Questo è probabilmente nella natura di una risposta che, sebbene accurata, probabilmente non è così utile. Horvitz e Thompson (1952) forniscono risultati che coprono questa situazione in generale. Questi risultati sono dati in termini di espressioni combinatorie che ci si potrebbe aspettare.

Per rimanere coerente con la loro notazione, e anche per corrispondere meglio con la notazione più ampiamente usata, vorrei ridefinire alcune quantità. Sia il numero di elementi nella popolazione e la dimensione del campione.Nn

Lascia che , , rappresenti gli elementi della popolazione, con i valori dati , e le probabilità di selezione . Per un dato campione di dimensione , lascia che i valori osservati nell'esempio siano .uii=1,...,NNVii=1,...,Np1,...,pNnv1,...,vn

Ciò che si desidera sono la media e la varianza del totale del campione

i=1nvi.

Come menzionato nei commenti, la probabilità di selezionare un particolare campione disegnato in quell'ordine è dove la probabilità iniziale di disegnare è data da , la seconda probabilità di disegnare è subordinata alla rimozione di dalla popolazione e così via. Quindi, ogni unità successiva disegnata genera una nuova distribuzione di probabilità per l'unità successiva (quindi, la scelta di diverse lettere indicative, perché ognuna rappresenta una distribuzione diversa).s={ui,uj,...,ut}

Pr(s)=pi1pj2ptn,
pi1uipipj2ujui

Ci sono campioni della dimensione che contengono dell'intera popolazione. Nota che questo tiene conto delpermutazioni del campione.

S(i)=n!(N1n1)
nuin!

Sia denota un campione specifico di dimensione che include . Quindi, la probabilità di selezionare l'elemento è data da dove la somma è sopra l'insieme della dimensione di tutti i possibili campioni di dimensione che contengono . (Ho cambiato un po 'la notazione dal foglio poiché mi sembrava confusa.)sn(i)nuiui

P(ui)=Pr(sn(i)),
S(i)sn(i)nui

Allo stesso modo, definisci come numero di campioni contenenti sia che . Quindi possiamo definire la probabilità di un campione contenente entrambi come dove la somma è sopra l'insieme della dimensione di tutti i possibili campioni di dimensione che contengono e .

S(ij)=n!(N2n2)
uiuj
P(uiuj)=Pr(sn(ij)),
S(ij)sn(ij)nuiuj

Il valore atteso viene quindi derivato come

E(i=1nvi)=i=1NP(ui)Vi.

Sebbene la varianza non sia derivata esplicitamente nel documento, potrebbe essere ottenuta dalle aspettative del ° momento e i prodotti incrociati q

E(i=1nviq)=i=1NP(ui)Viq
E(ijnvivj)=ijP(uiuj)ViVj.

In altre parole, sembra che sarebbe necessario esaminare tutti i possibili sottoinsiemi per eseguire questi calcoli. Forse questo potrebbe essere fatto per valori più piccoli di , però.n

Horvitz, DG e Thompson, DJ (1952) Una generalizzazione del campionamento senza sostituzione da un universo finito. Journal of American Statistical Association 47 (260): 663-685.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.