Qual è la varianza della miscela ponderata di due gaussiani?


39

Supponiamo che io abbia due distribuzioni normali A e B con mezzi e e varianze e . Voglio prendere una miscela ponderata di questi due distribuzioni utilizzando pesi e dove e . So che la media di questa miscela sarebbe .μAμBσAσBpq0p1q=1pμAB=(p×μA)+(q×μB)

Quale sarebbe la varianza?


Un esempio concreto sarebbe se conoscessi i parametri per la distribuzione dell'altezza maschile e femminile. Se avessi una stanza di persone con il 60% di sesso maschile, potrei produrre l'altezza media prevista per l'intera stanza, ma per quanto riguarda la varianza?


Ri terminologia: la miscela ha semplicemente una media e una varianza; non ha senso qualificarli come "previsti", a meno che tu non stia forse suggerendo che e dovrebbero essere considerati variabili casuali. qpq
whuber

So che la miscela di due distribuzioni gaussiane è identificabile. Ma se le due distribuzioni hanno gli stessi eman? Vale a dire: è identificabile la miscela di due distribuzioni normali con gli stessi mezzi e diverse deviazioni standard? Ci sono documenti in questo contesto? Grazie in anticipo

1
C'è una domanda simile con le risposte (che si occupano anche delle COVARIANCES) qui: math.stackexchange.com/q/195911/96547
hplieninger

Risposte:


63

La varianza è il secondo momento meno il quadrato del primo momento, quindi è sufficiente calcolare i momenti delle miscele.

In generale, date le distribuzioni con PDF e pesi costanti (non casuali) p i , il PDF della miscela èfipi

f(x)=ipifi(x),

da cui segue immediatamente per qualsiasi momento quellok

μ(K)=Ef[xk]=ipiEfi[xk]=ipiμi(k).

Ho scritto per il momento k t h di f e μ ( k ) i per il momento k t h di f i .μ(k)kthfμi(k)kthfi

Usando queste formule, la varianza può essere scritta

Var(f)=μ(2)(μ(1))2=ipiμi(2)(ipiμi(1))2.

Equivalentemente, se le varianze di sono date come σ 2 i , allora μ ( 2 ) i = σ 2 i + ( μ ( 1 ) i ) 2 , consentendo alla varianza della miscela f di essere scritta in termini di varianze e mezzi dei suoi componenti comefiσi2μi(2)=σi2+(μi(1))2f

Var(f)=ipi(σi2+(μi(1))2)(ipiμi(1))2=ipiσi2+ipi(μi(1))2(ipiμi(1))2.

In parole, questa è la varianza media (ponderata) più la media quadrata media meno il quadrato della media media. Poiché la quadratura è una funzione convessa, la disuguaglianza di Jensen afferma che la media quadrata media non può essere inferiore al quadrato della media media. Questo ci consente di comprendere la formula in quanto affermando che la varianza della miscela è la miscela delle varianze più un termine non negativo che tiene conto della dispersione (ponderata) dei mezzi.

Nel tuo caso la varianza è

pAσA2+pBσB2+[pAμA2+pBμB2(pAμA+pBμB)2].

Possiamo interpretare che questa è una miscela ponderata delle due varianze, , più un termine di correzione (necessariamente positivo) per tenere conto degli spostamenti dai singoli mezzi rispetto alla media complessiva della miscela.pAσA2+pBσB2

L'utilità di questa varianza nell'interpretazione dei dati, come quella fornita nella domanda, è dubbia, perché la distribuzione della miscela non sarà normale (e potrebbe discostarsi sostanzialmente da essa, nella misura in cui esibisce la bimodalità).


8
pUN+pB=1σ2=μ(2)-μ2=pUNσUN2+pBσB2+pUNpB(μUN-μB)2

2
UNpUNXUNN(μUN,σUN2)XUNc=BN(μB,σB2)(X)YμUN,μBpqE[Y2]-(E[Y])2.
Dilip Sarwate,

1
@Neodyme Per definizione, la varianza è il secondo momento meno la media al quadrato. Pertanto, il secondo momento è la varianza più il quadrato medio.
whuber

1
@Neodyme use E(X)=μ.
whuber

1
@Kiran Anche se in alcuni casi la miscela potrebbe sembrare normale, non lo sarà. Un modo per vedere questo è calcolare la sua curtosi in eccesso usando le formule fornite qui. Sarà diverso da zero a meno che tutte le deviazioni standard non siano uguali, nel qual caso la "miscela" non è in realtà una miscela in primo luogo.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.