Dati numeri, in cui il valore di ciascun numero è diverso, indicato come e la probabilità di selezionare ciascun numero è rispettivamente .
Ora, se seleziono i numeri base alle probabilità date, dove , qual è l'aspettativa della somma di quei numeri ? Si noti che la selezione è senza sostituzione, quindi i numeri non possono comportare numeri duplicati. Comprendo che se la selezione è con sostituzione, l'aspettativa della somma dei numeri uguale a , dove
Inoltre, che dire dell'aspettativa della varianza di quei numeri ?
Sono uno studente di dottorato di ricerca in CS che sta lavorando a un problema relativo ai big data e non ho alcun background statistico. Mi aspetto che qualcuno possa darmi una formula come risposta. Tuttavia, se la risposta è troppo complicata per essere descritta da una formula o deve essere coinvolto un calcolo intensivo, una risposta approssimativa è totalmente accettabile.
Puoi assumere qui è abbastanza grande e la probabilità può variare molto. In pratica, i valori di tali probabilità provengono da un registro delle query, che registra una serie di query di aggregazione. Il punto è che la frequenza di ciascun numero coinvolto nelle query può essere piuttosto distorta, cioè alcuni vengono interrogati raramente, mentre altri vengono interrogati molto frequentemente. Puoi presumere che la distribuzione di probabilità sia normale, zipf o qualsiasi altra alternativa ragionevole.
La distribuzione del valore è solo un sottoinsieme contiguo di ogni possibile distribuzione. In altre parole, se si dispone di un istogramma che rappresenta una determinata distribuzione, tutti i numeri coinvolti in questo problema sono i numeri tutti all'interno di un singolo bucket.
In termini di valore di K, si può presumere che sia sempre inferiore al numero di elementi frequentemente interrogati.