Riferimenti che giustificano l'uso di miscele gaussiane


14

I modelli di miscele gaussiane (GMM) sono allettanti perché sono semplici da lavorare sia in termini analitici che pratici e sono in grado di modellare alcune distribuzioni esotiche senza troppa complessità. Ci sono alcune proprietà analitiche che dovremmo aspettarci di possedere che non sono chiare in generale. In particolare:

  • Supponiamo che Sn sia la classe di tutte le miscele gaussiane con n componenti. Per qualsiasi distribuzione continua P sui reali, ci viene garantito che man mano che n cresce, possiamo approssimare P con un GMM con perdita trascurabile nel senso di entropia relativa? Cioè, fa
    limninfP^SnD(P||P^)=0?
  • Supponiamo di avere una distribuzione continua P e di aver trovato unaN miscela gaussiana di che è vicina a nella variazione totale: . Possiamo legare in termini di ?P^Pδ(P,P^)<εD(P||P^)ϵ
  • Se vogliamo osservare attraverso un rumore additivo indipendente (sia reale, continuo), e abbiamo GMM dove δ ( P , Q ) < ϵ , quindi questo valore è piccolo: | m m s e ( X | X + Y ) - m m s e ( X | X + Y ) | , cioè è vero che la stimaXPXYPYX^QX,Y^QNδ(P,Q)<ϵ
    |mmSe(X|X+Y)-mmSe(X^|X^+Y^)|,
    attraverso Y è rumore circa dura come stimare X attraverso Y rumore?XYX^Y^
  • Puoi farlo per modelli di rumore non additivi come il rumore di Poisson?

Finora la mia (breve) recensione di letteratura ha appena presentato tutorial molto applicati. Qualcuno ha riferimenti che dimostrano rigorosamente in quali condizioni siamo giustificati nell'uso dei modelli di miscele?


3
L'insieme degli MGM è denso nell'insieme delle distribuzioni nella topologia debole (corrispondente alla convergenza nella distribuzione); vedi ad esempio qui . Non sono sicuro se la vostra prima dichiarazione tiene, anche se sarebbe certamente richiedono permettendo componenti zero varianza nella miscela per affrontare eventuali masse puntiformi nel . Sono anche scettico riguardo al secondo punto elenco, sempre a causa del problema delle masse puntuali. P
Dougal,

1
Bene, ho specificato che tutto dovrebbe essere continuo
enthdegree

1
Potresti avere più fortuna guardando la letteratura sulla stima della densità del kernel con i kernel gaussiani. Dato che hai una miscela di gaussiani con uno per campione, man mano che il numero di campioni aumenta, ottieni uno stimatore asintoticamente imparziale e coerente della distribuzione? Penso che la risposta sia sì, ma non sono riuscito a trovare immediatamente un riferimento.
Greg Ver Steeg,

2
@enthdegree: Ottima domanda. Poiché vuoi usare topologie forti (divergenza di KL e variazione totale), la risposta generale ai tuoi primi due punti è no: ad esempio, considera una distribuzione dalla coda grassa; Il KL per qualsiasi miscela gaussiana finita è infinito (sono abbastanza sicuro che funzioni, sebbene non al 100%). Ma questo porta alla domanda molto più interessante, per quale sottoclasse di distribuzioni di probabilità si applicherebbero tutti i punti elenco? Non conosco la risposta ma sembra estremamente interessante. La mia ipotesi è che probabilmente sono quasi tutte le distribuzioni di probabilità.
Guillaume Dehaene,

1
Ho preso una lezione con questo libro. link Fa un discreto background sui fondamenti.
EngrStudent - Ripristina Monica

Risposte:


0

In econometria, dove il contesto è delle distribuzioni miste di coefficienti nei modelli logit, il riferimento standard è: MODELLI MNL MISTI PER LA RISPOSTA DISCRETA DANIEL MCFADDEN E KENNETH TRAIN, JOURNAL OF APPLIED ECONOMETRICS, J. Appl. Econ. 15: 447-470 (2000).


0

Rispetto alle tue domande:

  1. Per il problema Bayesiano molto simile della miscela di gaussiani del Dirichlet Process, capisco che la risposta è sì. Ghosal (2013) .
  2. Quando ho partecipato ad alcuni colloqui su questo argomento, mi è sembrato che i progressi fossero stati fatti principalmente usando la divergenza di KL. Guarda le diapositive di Harry van Zanten .
  3. Non sono chiaro Tuttavia, questo sembra un problema di separazione della fonte ( sconosciuto). Questi sono generalmente molto più difficili della modellazione della miscela da sola. In particolare per il semplice caso di P N = P S = N ( 0 , 1 ) non saresti in grado di identificare la vera X e Y a causa della simmetria delle distribuzioni su zero.PN,PSPN=PS=N(0,1)XY
  4. Vedi la quarta delle diapositive collegate sopra, c'è un elenco di modelli bayesiani per i quali la convergenza garantisce la tenuta.

0

Ecco una risposta parziale.

Supponiamo che sia la classe di tutte le miscele gaussiane con n componenti. Per qualsiasi distribuzione continua P sui reali, ci viene garantito che man mano che n cresce, possiamo approssimare P con un GMM con perdita trascurabile nel senso di entropia relativa? Cioè, fa lim n inf PS n D ( P | | P ) = 0 ?SnnPnP

limninfP^SnD(P||P^)=0?

No. Si può solo sperare che una divergenza KL è piccolo se si sa che Q 'code s sono alla fine dello stesso ordine P ' s. Questo non è vero in generale. Non è difficile vedere che per la P Cauchy allora per ogni n , inf PS n D ( P | | P ) = D(PQ)QPPn

infP^SnD(P||P^)=

Sono necessarie ulteriori condizioni su per dirlo.P

Supponiamo di avere una distribuzione continua e abbiamo trovato un N bicomponente gaussiana miscela P , che si trova vicino a P in variazione totale: δ ( P , P ) < ε . Possiamo bound D ( P | | P ) in termini di ε ?PNP^Pδ(P,P^)<εD(P||P^)ε

No. Si applica lo stesso esempio sopra.

X~PXY~PYX^~QX,Y^~QYδ(P,Q)<ε

|mmSe(X|X+Y)-mmSe(X^|X^+Y^)|,
XYX^Y^

X,Y,X^,Y^E[X|Y]E[X^|Y^]|EP[(EP[X|Y]-X)2]-EQ[(EQ[X|Y]-X)2]|TV(P,Q)

Non sono stato in grado di dimostrarlo, né in generale, né usando la struttura additiva aggiuntiva che abbiamo assunto su P, Q, o ho escogitato alcun controesempio.

Puoi farlo per modelli di rumore non additivi come il rumore di Poisson?

Questo è ambiguo. Nel contesto della domanda precedente, se l'affermazione contenuta in tale risposta può essere dimostrata in generale, la risposta è sì.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.