Perché una miscela di due variabili normalmente distribuite è bimodale solo se i loro mezzi differiscono di almeno due volte la deviazione standard comune?


28

Sotto miscela di due distribuzioni normali:

https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions

"Una miscela di due distribuzioni normali ha cinque parametri da stimare: i due mezzi, le due varianze e il parametro di miscelazione. Una miscela di due distribuzioni normali con deviazioni standard uguali è bimodale solo se i loro mezzi differiscono di almeno il doppio della deviazione standard comune ".

Sto cercando una derivazione o una spiegazione intuitiva sul perché questo è vero. Credo che potrebbe essere in grado di essere spiegato sotto forma di un test t di due campioni:

μ1μ2σp

dove σp è la deviazione standard aggregata.


1
l'intuizione è che, se i mezzi sono troppo vicini, allora ci sarà troppa sovrapposizione nella massa delle 2 densità, quindi la differenza nei mezzi non sarà vista perché la differenza verrà semplicemente intrappolata con la massa dei due densità. Se i due mezzi sono abbastanza diversi, le masse delle due densità non si sovrapporranno molto e la differenza nei mezzi sarà percepibile. Ma mi piacerebbe vedere una prova matematica di questo. È un'affermazione inquietante. Non l'ho mai visto prima.
mlofton

2
Più formalmente, per una miscela 50:50 di due distribuzioni normali con la stessa SD se si scrive la densità f ( x ) = 0,5 g 1 ( x ) + 0,5 g 2 ( x ) in forma completa che mostra i parametri, si vedrà che la sua seconda derivata cambia segno nel punto medio tra i due mezzi quando la distanza tra i mezzi aumenta da sotto 2 σ a sopra. σ,f(x)=0.5g1(x)+0.5g2(x)2σ
BruceET

Risposte:


53

Questa figura dall'articolo collegato in quell'articolo wiki fornisce una bella illustrazione: inserisci qui la descrizione dell'immagine

La prova che forniscono si basa sul fatto che le distribuzioni normali sono concava all'interno di una SD della loro media (la SD è il punto di flesso del pdf normale, dove va da concava a convessa). Pertanto, se si sommano due PDF normali insieme (in proporzioni uguali), purché i loro mezzi differiscano di meno di due SD, la somma-pdf (cioè la miscela) sarà concava nella regione tra i due mezzi, e quindi il massimo globale deve essere esattamente nel punto tra i due mezzi.

Riferimento: Schilling, MF, Watkins, AE e Watkins, W. (2002). L'altezza umana è bimodale? The American Statistician, 56 (3), 223–229. DOI: 10,1198 / 00.031.300,265 mila


11
+1 Questa è una discussione piacevole e memorabile.
whuber

2
La didascalia della figura fornisce anche una bella illustrazione della legatura "fl" indebita in "inflessione" :-P
nekomatic

2
@Axeman: Grazie per aver aggiunto quel riferimento - dal momento che questo è esploso un po 'avevo programmato di aggiungerlo da solo, dal momento che sto davvero solo ripetendo la loro discussione e non voglio prendermi troppo il merito.
Ruben van Bergen

14

Questo è un caso in cui le immagini possono ingannare, perché questo risultato è una caratteristica speciale delle miscele normali : un analogo non vale necessariamente per altre miscele, anche quando i componenti sono distribuzioni simmetriche unimodali! Ad esempio, una miscela uguale di due distribuzioni di Student t separate da un po 'meno del doppio della loro deviazione standard comune sarà bimodale. Per una vera comprensione, quindi, dobbiamo fare un po 'di matematica o fare appello a proprietà speciali delle distribuzioni normali.


±μ, μ0,p, 0<p<1,

2πf(x;μ,p)=pexp((xμ)22)+(1p)exp((x+μ)22).

x<μx>μ,μxμ.fx

0=e2xμp(xμ)+(1p)(x+μ).

fe2xμ

f(x;μ,p)(1+x2μ2)xμ.

μ<x<μ,f(1μ2+x2).μ1,μ1

2μ,

Una miscela di distribuzioni normali non è modale ogni volta che i mezzi sono separati da non più del doppio della deviazione standard comune.

Ciò è logicamente equivalente all'affermazione nella domanda.


12

Commento dall'alto incollato qui per continuità:

f(x)=0.5g1(x)+0.5g2(x)

Commento continuato:

σ=1.3σ,2σ,σ,

inserisci qui la descrizione dell'immagine

Codice R per la figura:

par(mfrow=c(1,3))
  curve(dnorm(x, 0, 1)+dnorm(x,3,1), -3, 7, col="green3", 
    lwd=2,n=1001, ylab="PDF", main="3 SD: Dip")
  curve(dnorm(x, .5, 1)+dnorm(x,2.5,1), -4, 7, col="orange", 
    lwd=2, n=1001,ylab="PDF", main="2 SD: Flat")
  curve(dnorm(x, 1, 1)+dnorm(x,2,1), -4, 7, col="violet", 
    lwd=2, n=1001, ylab="PDF", main="1 SD: Peak")
par(mfrow=c(1,3))

1
tutte le risposte sono state fantastiche. Grazie.
mlofton

3
2/30.001.

1
0.1% fx0)
f(x0)f(x)0.001f(x0)  |xx0|0.333433,
0.0010.95832
f(x0)f(x)0.001  |xx0|0.47916.

Punti buoni. In realtà, ciò che intendevo per linguaggio abbreviato "piatto" era zero 2a derivata esattamente nel punto medio.
BruceET,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.