Qual è la distanza tra una miscela gaussiana finita e una gaussiana?


12

Supponiamo che io abbia una miscela di molti gaussiani finiti con pesi, mezzi e deviazioni standard noti. I mezzi non sono uguali. La deviazione media e standard della miscela può essere calcolata, ovviamente, poiché i momenti sono medie ponderate dei momenti dei componenti. La miscela non è una distribuzione normale, ma quanto è lontana dalla normalità?

Miscela di gaussiani separati da 2 deviazioni standard rispetto a gaussiani con media e varianza identiche

L'immagine sopra mostra le densità di probabilità per una miscela gaussiana con medie componenti separate da deviazioni standard (dei componenti) e una singola gaussiana con la stessa media e varianza.2

Miscela di gaussiani separati da 1 deviazione standard rispetto a gaussiani con la stessa media e varianza

Qui i mezzi sono separati da deviazione standard ed è più difficile separare la miscela dal gaussiano a occhio.1


Motivazione: Non sono d'accordo con alcune persone pigre su alcune distribuzioni reali che non hanno misurato e che presumono vicine alla normalità perché sarebbe carino. Anch'io sono pigro. Non voglio nemmeno misurare le distribuzioni. Voglio essere in grado di dire che le loro assunzioni sono incoerenti, perché stanno dicendo che una miscela finita di gaussiani con mezzi diversi è un gaussiano che non è giusto. Non voglio solo dire che la forma asintotica della coda è sbagliata perché si tratta solo di approssimazioni che si suppone siano ragionevolmente accurate entro poche deviazioni standard della media. Vorrei poter dire che se i componenti sono ben approssimati dalle normali distribuzioni, la miscela non lo è, e vorrei essere in grado di quantificarlo.


Non conosco la giusta distanza dalla normalità da usare: supremum di differenze tra CDF, distanza , distanza del movimento terra, divergenza KL, ecc. Sarei felice di avere dei limiti in termini di uno di questi, oppure altre misure. Sarei felice di conoscere la distanza dal gaussiano con la stessa media e deviazione standard della miscela, o la distanza minima con qualsiasi gaussiano. Se aiuta, puoi limitare il caso in cui la miscela è di gaussiani in modo che il peso più piccolo sia maggiore di . 2 1 / 4L121/4


2
Se una miscela è molto simile a quella normale, usare un'approssimazione normale non è pigrizia, è una semplificazione e potrebbe essere buona. Ma nel tuo esempio mostri una miscela più piatta di una cromica al centro, più sparsa nel mezzo e più corta nella coda rispetto alla migliore normale approssimativa. Penso che vorresti esaminare una sorta di differenza integrata tra i due cdf. Non è la misura KS perché la discrepanza massima potrebbe non essere molto grande, ma la discrepanza media su una regione potrebbe essere relativamente grande.
Michael R. Chernick,

Possiamo supporre che ci siano prove statisticamente significative per la miscela di gaussiani su una normale approssimazione? Dobbiamo solo preoccuparci se la differenza ha un significato pratico se la differenza è statisticamente significativa. Il suggerimento di Michaels di qualcosa come la statistica Anderson-Darling sarebbe un punto di partenza ragionevole.
Dikran Marsupial,

@Dikran Marsupial: la popolazione è suddivisa in sottogruppi che hanno diversi mezzi. I mezzi componenti sono noti con elevata precisione. Il rapporto tra le differenze tra le medie dei componenti e le deviazioni standard dei componenti varia, ma può essere compreso tra e in alcuni casi di interesse, sfortunatamente non abbastanza per causare la distribuzione totale della bimodale. 21/22
Douglas Zare,

3
Sembra che tu stia davvero facendo una domanda sulla selezione del modello: dati alcuni dati al modello, quando si dovrebbe preferire una distribuzione normale rispetto a una miscela (o più in generale, come si dovrebbe scegliere il numero di componenti della miscela)? La modifica della domanda in questo modo ti darebbe accesso a, oh, alcune centinaia di domande correlate su questo sito :-).
whuber

@whuber: la distanza dalla normale potrebbe quindi essere espressa come potenza (media) di un test che mira a separare la miscela dal singolo gaussiano.
Xi'an,

Risposte:


9

La divergenza di KL sarebbe naturale perché hai una distribuzione di base naturale, il singolo gaussiano, da cui la tua miscela diverge. D'altra parte, la divergenza di KL (o la sua forma simmetrica di "distanza") tra due miscele gaussiane, di cui il tuo problema è un caso speciale, sembra essere intrattabile in generale. Hershey e Olson (2007) sembrano un sommario ragionevole delle approssimazioni disponibili, compresi i metodi variazionali che possono eventualmente offrire limiti più facili.

Tuttavia, se vuoi avere una discussione sugli effetti negativi dell'ipotesi che qualcosa sia gaussiano quando è davvero un miscuglio, allora è meglio avere una buona idea delle conseguenze a cui sei effettivamente interessato - qualcosa di più specifico del semplice "errore" '(questo è il punto di @ Michael-Chernick). Ad esempio, le conseguenze per un test, un intervallo o qualcosa del genere. Due ovvi effetti della miscela sono la sovraispersione, che è praticamente garantita, e la multimodalità, che confonderà i massimizzatori.


1

Consentitemi di dare seguito alle considerazioni sulle conseguenze di specifiche di distribuzione errate. Invece di utilizzare una misura generica della distanza, come KL Divergence, è possibile valutare una misura personalizzata della "differenza", germana alle conseguenze a portata di mano.

Ad esempio, se la distribuzione verrà utilizzata per il calcolo del rischio, ad esempio per determinare che la probabilità di fallimento è abbastanza bassa, le uniche cose che contano nell'adattamento sono i calcoli di probabilità nella coda estrema. Ciò può essere rilevante per le decisioni su programmi multimiliardari e coinvolgere questioni di vita o di morte.

Dov'è che il presupposto normale è probabilmente il più impreciso? In molti casi, nelle code estreme, l'unico posto che conta per questi calcoli del rischio cruciale. Se, ad esempio, la tua vera distribuzione è una miscela di normali con la stessa media, ma con deviazioni standard diverse, le code della distribuzione della miscela sono più grosse delle code della distribuzione normale con la stessa media e deviazione standard. Ciò può facilmente comportare ordini di differenza di grandezza (sottovalutazione del rischio) per le probabilità nella coda estrema.

UP(XMixture>U)P(XNormal>U)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.