Distanza tra due miscele gaussiane per valutare le soluzioni a grappolo


11

Sto eseguendo una rapida simulazione per confrontare diversi metodi di clustering e attualmente ho un problema cercando di valutare le soluzioni del cluster.

Conosco varie metriche di convalida (molte delle quali si trovano in cluster.stats () in R), ma presumo che siano meglio utilizzate se il numero stimato di cluster è effettivamente uguale al numero reale di cluster. Voglio mantenere la capacità di misurare il rendimento di una soluzione di clustering quando non specifica il numero corretto di cluster nella simulazione originale (ovvero, quanto bene i dati di un modello di soluzione a tre cluster che sono stati simulati per avere un 4 cluster soluzione). Solo per tua informazione, i cluster sono simulati per possedere matrici di covarianza identiche.

Ho pensato che la divergenza di KL tra due miscele di gaussiani sarebbe stata utile da implementare, ma non esiste una soluzione in forma chiusa ( Hershey e Olson (2007) ) e l'implementazione di una simulazione Monte Carlo sta iniziando a essere computazionalmente costosa.

Ci sono altre soluzioni che potrebbero essere facili da implementare (anche se solo un'approssimazione)?


La distanza L2 tra due miscele gaussiane è disponibile in forma chiusa. Usa questo e dovresti essere pronto.

Non so come lo faresti, ma non mi sembra una buona idea. Prendi una miscela, permuta i componenti (nessuna modifica a p (x)) e la distanza L2 può essere qualsiasi cosa. Inoltre, la distanza L2 non è una buona idea sulle matrici di covarianza.
Bayerj,

Probabilità predittiva posteriore di un set di dati di prova tenuto. Ho il sospetto che avresti bisogno di priori su k però.
congetture

Il primo collegamento è interrotto
ttnphns il

Risposte:


6

Supponiamo di avere due miscele gaussiane in : Chiama le loro densità e , rispettivamente, e denota le densità dei loro componenti , con , .Rd

P=i=1nαiPi=i=1nαiN(μi,Σi)Q=j=1mβjQj=j=1mN(mj,Sj).
p()q()PiQjpi(x)=N(x;μi,Σi)qj(x)=N(x;mj,Sj)

Le seguenti distanze sono disponibili in forma chiusa:

  • L2 distance, come suggerito in un commento dell'utente39665. Questo è: Nota che, come visto ad esempio nella sezione 8.1.8 del libro di cucina di matrice : modo che questo possa essere valutato facilmente in tempo.

    L2(P,Q)2=(p(x)q(x))2dx=(iαipi(x)jβjqj(x))2dx=i,iαiαipi(x)pi(x)dx+j,jβjβjqj(x)qj(x)dx2i,jαiβjpi(x)qj(x)dx.
    N(x;μ,Σ)N(x;μ,Σ)dx=N(μ;μ,Σ+Σ)
    O(mn)

  • La discrepanza media massima (MMD) con un kernel Gaussiano RBF. Questa è una bella distanza, non ancora molto nota nella comunità delle statistiche, che richiede un po 'di matematica per essere definita.

    Lasciando definisci lo spazio di Hilbert come lo spazio di Hilbert del kernel riproducente corrispondente a : .

    k(x,y):=exp(12σ2xy2),
    Hkk(x,y)=φ(x),φ(y)H

    Definire il kernel della mappa media come

    K(P,Q)=EXP,YQk(X,Y)=EXPφ(X),EYQφ(Y).

    L'MMD è quindi

    MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]=K(P,P)+K(Q,Q)2K(P,Q)=supf:fH1EXPf(X)EYQf(Y).

    Per le nostre miscele e , nota che e similmente per e .PQ

    K(P,Q)=i,jαiβjK(Pi,Qj)
    K(P,P)K(Q,Q)

    Si scopre, usando trucchi simili a quelli di , che è L2K(N(μ,Σ),N(μ,Σ))

    (2πσ2)d/2N(μ;μ,Σ+Σ+σ2I).

    Come , chiaramente questo converge in un multiplo della distanza . Normalmente vorresti usare un diverso , tuttavia, uno sulla scala della variazione dei dati.σ0L2σ

    I moduli chiusi sono disponibili anche per i kernel polinomiali nella MMD; vederek

    Muandet, Fukumizu, Dinuzzo e Schölkopf (2012). Imparare dalle distribuzioni tramite macchine di misura di supporto. In Advances in Neural Information Processing Systems ( versione ufficiale ). arXiv: 1202.6504 .

    Per un sacco di belle proprietà di questa distanza, vedi

    Sriperumbudur, Gretton, Fukumizu, Schölkopf e Lanckriet (2010). Incorporazioni e metriche dello spazio di Hilbert su misure di probabilità. Journal of Machine Learning Research, 11, 1517-1561 . arXiv: 0907.5309 .

  • Divergenza quadratica di Jensen-Rényi. L' entropia di Rényi- è definita come Il suo limite come è l'entropia di Shannon. La divergenza di Jensen-Rényi è dove indica una miscela uguale tra e . Si scopre che, quando e quando e sono miscele gaussiane (come qui), è possibile calcolare un modulo chiuso per . Questo è stato fatto daα

    Hα(p)=11αlog(p(x)αdx).
    α1
    JRα(p,q)=Hα(p+q2)Hα(p)+Hα(q)2
    p+q2pqα=2PQJR2

    Wang, Syeda-Mahmood, Vemuri, Beymer e Rangarajan (2009). Divergenza di Jensen-Renyi in forma chiusa per la miscela di gaussiani e applicazioni per la registrazione di forme sagge di gruppo. Med Image Comput Comput Assist Interv., 12 (1), 648-655. ( versione gratuita di pubmed )


0

Se i cluster sono in realtà non miscele gaussiane, ma di forma arbitraria, i risultati potrebbero in realtà essere molto meglio quando si produce molto di più cluster, quindi unire un po 'di nuovo in seguito.

In molti casi, si sceglie semplicemente k come arbitrariamente alto, ad esempio 1000 per un set di dati di grandi dimensioni; in particolare quando non sei veramente interessato ai modelli, ma vuoi solo ridurre la complessità del set di dati tramite quantizzazione vettoriale.


Ho simulato i cluster da trarre da una miscela gaussiana, quindi penso che la mia ipotesi sia valida. L'obiettivo qui non è ridurre la complessità o elaborare un criterio decisionale per la scelta di k, ma confrontare quanto bene i cluster k modellano i dati quando k è effettivamente errato. Alcune scelte errate potrebbero modellare i dati meglio di altri e sto cercando di quantificare questo grado di disadattato con alcuni calcoli (come la divergenza di KL, ma più facile da implementare per le miscele gaussiane).
dmartin,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.