15

Sto eseguendo un esperimento in cui sto raccogliendo campioni (indipendenti) in parallelo, calcolo la varianza di ciascun gruppo di campioni e ora voglio combinare tutti per trovare la varianza totale di tutti i campioni.

Sto facendo fatica a trovare una derivazione per questo in quanto non sono sicuro della terminologia. Lo considero una partizione di un camper.

Quindi voglio trovare da , , ... e , dove = . $Var(X)$ $Var(X_1)$ $Var(X_2)$ $Var(X_n)$ $X$ $[X_1, X_2, \dots, X_n]$

EDIT: le partizioni non hanno le stesse dimensioni / cardinalità, ma la somma delle dimensioni delle partizioni è uguale al numero di campioni nel set di campioni complessivo.

EDIT 2: esiste una formula per un calcolo parallelo qui , ma copre solo il caso di una partizione in due set, non in set. $n$

variance

— Gallamine
fonte

È la stessa della mia domanda qui: mathoverflow.net/questions/64120/…

Cosa significa quell'ultima parentesi? E cosa intendi per "varianza totale"? È qualcosa di diverso dalla varianza del set di dati combinato?

— whuber

@whuber quale ultima parentesi? "varianza totale" indica la varianza del set di dati totale.

— Gallamina

L'espressione

[X_{1}, X_{2}, \dots, X_{n}]

$[X_1, X_2, \dots, X_n]$ potrebbe significare molte cose (anche se convenzionalmente sarebbe un vettore): stavo cercando un chiarimento.

— whuber

22

La formula è abbastanza semplice se tutti i sottocampioni hanno le stesse dimensioni del campione. Se avevi sottocampioni di dimensione (per un totale di campioni), la varianza del campione combinato dipende dalla media e dalla varianza di ciascun sottocampione: $g$ $k$ $gk$ $E_j$ $V_j$ dove perindica la varianza delle medie campionarie.

V a r (X_{1}, \dots, X_{g k}) = \frac{k - 1}{g k - 1} (\sum_{j = 1}^{g} V_{j} + \frac{k (g - 1)}{k - 1} V a r (E_{j})),

$Var(X_1,\ldots,X_{gk}) = \frac{k-1}{gk-1}(\sum_{j=1}^g V_j + \frac{k(g-1)}{k-1} Var(E_j)),$

V a r (E_{j})

$Var(E_j)$

Una dimostrazione in R:

> x <- rnorm(100)
> g <- gl(10,10)
> mns <- tapply(x, g, mean)
> vs <- tapply(x, g, var)
> 9/99*(sum(vs) + 10*var(mns))
[1] 1.033749
> var(x)
[1] 1.033749

Se le dimensioni del campione non sono uguali, la formula non è così bella.

EDIT: formula per campioni di dimensioni diverse

$g$ $k_j, j=1,\ldots,g$ $n=\sum{k_j}$

V a r (X_{1}, \dots, X_{n}) = \frac{1}{n - 1} (\sum_{j = 1}^{g} (k_{j} - 1) V_{j} + \sum_{j = 1}^{g} k_{j} ({\bar{X}}_{j} - \bar{X})^{2}),

$Var(X_1,\ldots,X_{n}) = \frac{1}{n-1}\left(\sum_{j=1}^g (k_j-1) V_j + \sum_{j=1}^g k_j (\bar{X}_j - \bar{X})^2\right),$

\bar{X} = (\sum_{j = 1}^{g} k_{j} {\bar{X}}_{j}) / n

$\bar{X} = (\sum_{j=1}^gk_j\bar{X}_j)/n$

Ancora una volta, una dimostrazione:

> k <- rpois(10, lambda=10)
> n <- sum(k)
> g <- factor(rep(1:10, k))
> x <- rnorm(n)
> mns <- tapply(x, g, mean)
> vs <- tapply(x, g, var)
> 1/(n-1)*(sum((k-1)*vs) + sum(k*(mns-weighted.mean(mns,k))^2))
[1] 1.108966
> var(x)
[1] 1.108966

$(X_{ji}-\bar{X})^2$ $\bar{X}_j$ $[(X_{ji}-\bar{X}_j)-(\bar{X}_j-\bar{X})]^2$

— Aniko
fonte

Grazie. Sfortunatamente, non posso garantire che le mie partizioni abbiano tutte le stesse dimensioni. Sto eseguendo un processo enormemente parallelo in cui ho bisogno di calcolare le varianze di ciascuna partizione in parallelo, quindi combinarle alla fine, ma i risultati / campioni di ciascun processo parallelo non sono uguali (è una simulazione Monte Carlo dei fotoni ricevuti).

— Gallamina

3

Non riesco a fare +1 su questa formula abbastanza utile per il calcolo parallelo in un ambiente di data warehouse

— Noah Yetter

1

Questo è semplicemente un componente aggiuntivo alla risposta di Aniko con uno schizzo approssimativo della derivazione e del codice Python, quindi tutti i crediti vanno ad Aniko.

derivazione

$X_j \in X = \{X_1, X_2, \ldots, X_g\}$ $g$ $k_j = |X_j|$

\begin{aligned} E_{j} & = E [X_{j}] = \frac{1}{k_{j}} \sum_{i = 1}^{k_{j}} X_{j i} \\ V_{j} & = V a r [X_{j}] = \frac{1}{k_{j} - 1} \sum_{i = 1}^{k_{j}} (X_{j i} - E_{j})^{2} \end{aligned}

$\begin{align*} E_j & = \mathrm{E}\left[X_j\right] = \frac{1}{k_j} \sum_{i=1}^{k_j} X_{ji}\\ V_j & = \mathrm{Var}\left[X_j\right] = \frac{1}{k_j-1} \sum_{i=1}^{k_j} (X_{ji} - E_j)^2 \end{align*}$ respectively. If we set

n = \sum_{j = 1}^{g} k_{j}

$n = \sum_{j=1}^g k_j$ , the variance of the total dataset is given by:

\begin{aligned} V a r [X] & = \frac{1}{n - 1} \sum_{j = 1}^{g} \sum_{i = 1}^{k_{j}} (X_{j i} - E [X])^{2} \\ = \frac{1}{n - 1} \sum_{j = 1}^{g} \sum_{i = 1}^{k_{j}} ((X_{j i} - E_{j}) - (E [X] - E_{j}))^{2} \\ = \frac{1}{n - 1} \sum_{j = 1}^{g} \sum_{i = 1}^{k_{j}} (X_{j i} - E_{j})^{2} - 2 (X_{j i} - E_{j}) (E [X] - E_{j}) + (E [X] - E_{j})^{2} \\ = \frac{1}{n - 1} \sum_{j = 1}^{g} (k_{j} - 1) V_{j} + k_{j} (E [X] - E_{j})^{2} . \end{aligned}

$\begin{align*} \mathrm{Var}\left[X\right] & = \frac{1}{n-1} \sum_{j=1}^{g} \sum_{i=1}^{k_j} (X_{ji} - \mathrm{E}\left[X\right])^2 \\ & = \frac{1}{n-1} \sum_{j=1}^{g} \sum_{i=1}^{k_j} \big((X_{ji} - E_j) - (\mathrm{E}\left[X\right] - E_j)\big)^2 \\ & = \frac{1}{n-1} \sum_{j=1}^{g} \sum_{i=1}^{k_j} (X_{ji} - E_j)^2 - 2(X_{ji} - E_j)(\mathrm{E}\left[X\right] - E_j) + (\mathrm{E}\left[X\right] - E_j)^2 \\ & = \frac{1}{n-1} \sum_{j=1}^{g} (k_j - 1) V_j + k_j (\mathrm{E}\left[X\right] - E_j)^2. \end{align*}$ If we have the same size

k

$k$ for each part, i.e.

\forall j : k_{j} = k

$\forall j: k_j = k$ , above formula simplifies to

\begin{aligned} V a r [X] & = \frac{1}{n - 1} \sum_{j = 1}^{g} (k - 1) V_{j} + k (g - 1) V a r [E_{j}] \\ = \frac{k - 1}{n - 1} \sum_{j = 1}^{g} V_{j} + \frac{k (g - 1)}{k - 1} V a r [E_{j}] \end{aligned}

$\begin{align*} \mathrm{Var}\left[X\right] & = \frac{1}{n-1} \sum_{j=1}^g (k-1) V_j + k(g-1) \mathrm{Var}\left[E_j\right] \\ & = \frac{k-1}{n-1} \sum_{j=1}^g V_j + \frac{k(g-1)}{k-1} \mathrm{Var}\left[E_j\right] \end{align*}$

python code

The following python function works for arrays that have been splitted along the first dimension and implements the "more complex" formula for differently sized parts.

import numpy as np

def combine(averages, variances, counts, size=None):
    """
    Combine averages and variances to one single average and variance.

    # Arguments
        averages: List of averages for each part.
        variances: List of variances for each part.
        counts: List of number of elements in each part.
        size: Total number of elements in all of the parts.
    # Returns
        average: Average over all parts.
        variance: Variance over all parts.
    """
    average = np.average(averages, weights=counts)

    # necessary for correct variance in case of multidimensional arrays
    if size is not None:
        counts = counts * size // np.sum(counts, dtype='int')

    squares = (counts - 1) * variances + counts * (averages - average)**2
    return average, np.sum(squares) / (size - 1)

It can be used as follows:

# sizes k_j and n
ks = np.random.poisson(10, 10)
n = np.sum(ks)

# create data
x = np.random.randn(n, 20)
parts = np.split(x, np.cumsum(ks[:-1]))

# compute statistics on parts
ms = [np.mean(p) for p in parts]
vs = [np.var(p, ddof=1) for p in parts]

# combine and compare
combined = combine(ms, vs, ks, x.size)
numpied = np.mean(x), np.var(x, ddof=1)
distance = np.abs(np.array(combined) - np.array(numpied))
print('combined --- mean:{: .9f} - var:{: .9f}'.format(*combined))
print('numpied  --- mean:{: .9f} - var:{: .9f}'.format(*numpied))
print('distance --- mean:{: .5e} - var:{: .5e}'.format(*distance))

— Mr Tsjolder
fonte

Come calcolare la varianza di una partizione di variabili

derivazione

python code