Come misurare la forma del cluster?


14

So che questa domanda non è ben definita, ma alcuni cluster tendono ad essere ellittici o si trovano nello spazio dimensionale inferiore mentre altri hanno forme non lineari (in esempi 2D o 3D).

C'è qualche misura di non linearità (o "forma") dei cluster?

Si noti che nello spazio 2D e 3D, non è un problema vedere la forma di qualsiasi cluster, ma negli spazi di dimensioni superiori è difficile dire qualcosa sulla forma. In particolare, ci sono misure su come sia il cluster convesso?

Sono stato ispirato da questa domanda da molte altre domande sul cluster in cui le persone parlano di cluster, ma nessuno è in grado di vederli (in spazi di dimensioni superiori). Inoltre, so che esistono alcune misure di non linearità per le curve 2D.


1
en.wikipedia.org/wiki/Topological_data_analysis può aiutare, dove la forma non è esattamente come quello che intendi, però.
ziyuang,

1
Forse potresti adattare il concetto di compattezza al tuo scopo.
user12719

Risposte:


4

Mi piacciono i modelli di miscele gaussiane (GMM).

Una delle loro caratteristiche è che, nel dominio probit , si comportano come interpolatori a tratti. Una conseguenza di ciò è che possono agire come una base sostitutiva, un approssimatore universale. Ciò significa che per le distribuzioni non gaussiane, come quelle lognormali, weibull o più pazze non analitiche, purché siano soddisfatti alcuni criteri, il GMM può approssimare la distribuzione.

Quindi, se conosci i parametri dell'approssimazione ottimale AICc o BIC usando GMM, puoi proiettarli su dimensioni più piccole. Puoi ruotarlo e guardare gli assi principali dei componenti del GMM approssimativo.

La conseguenza sarebbe un modo informativo e visivamente accessibile per guardare le parti più importanti dei dati di dimensione superiore usando la nostra percezione visiva di visualizzazione 3D.

EDIT: (certo, whuber)

Esistono diversi modi per esaminare la forma.

  • Puoi guardare le tendenze nei mezzi. Un lognormale è approssimato da una serie di gaussiani che significa avvicinarsi progressivamente e i cui pesi si riducono lungo la progressione. La somma si avvicina alla coda più pesante. In n-dimensioni, una sequenza di tali componenti formerebbe un lobo. Puoi anche tenere traccia delle distanze tra le medie (converti in alta dimensione) e la direzione tra i coseni. Ciò si convertirà in dimensioni molto più accessibili.
  • Puoi creare un sistema 3d i cui assi sono il peso, l'entità della media e l'entità della varianza / covarianza. Se hai un conteggio dei cluster molto elevato, questo è un modo per visualizzarli in confronto tra loro. È un modo prezioso per convertire 50k parti con misure 2k ciascuna in poche nuvole in uno spazio 3d. Se lo desidero, posso eseguire il controllo di processo in quello spazio. Mi piace la ricorsione dell'utilizzo del controllo basato sul modello di miscela gaussiana sui componenti del modello di miscela gaussiana che si adatta ai parametri della parte.
  • In termini di de-ingombro è possibile gettare via un peso molto piccolo, o in base al peso per covarianza o simili.
  • R2
  • Potresti vederlo come bolle che si intersecano . La posizione di uguale probabilità (zero divergenza di Kullback-Leibler) esiste tra ogni coppia di cluster GMM. Se segui quella posizione, puoi filtrare per probabilità di appartenenza a quella posizione. Ti darà punti di confine di classificazione. Questo ti aiuterà a isolare i "solitari". È possibile contare il numero di tali limiti al di sopra della soglia per membro e ottenere un elenco di "connessioni" per componente. Puoi anche guardare gli angoli e le distanze tra le posizioni.
  • È possibile ricampionare lo spazio utilizzando numeri casuali dati i PDF gaussiani, quindi eseguire l'analisi dei componenti principali su di esso e osservare le forme di autovelo e gli autovalori associati ad essi.

MODIFICARE:

Cosa significa forma? Dicono che la specificità sia l'anima di ogni buona comunicazione. Cosa intendi per "misura"?

Idee su cosa può significare:

  • Senso / sensazione della norma del bulbo oculare di forma generale. (estremamente qualitativo, accessibilità visiva)
  • misura della forma GD&T (complanarità, concentricità, ecc.) (estremamente quantitativa)
  • qualcosa di numerico (autovalori, covarianze, ecc ...)
  • un'utile coordinata di dimensione ridotta (come i parametri GMM che diventano dimensioni)
  • un sistema a rumore ridotto (levigato in qualche modo, quindi presentato)

La maggior parte dei "diversi modi" sono alcune variazioni su questi.


3

Questo potrebbe essere piuttosto semplicistico, ma potresti ottenere alcune informazioni facendo un'analisi autovalutazione su ciascuno dei tuoi cluster.

Quello che vorrei provare è prendere tutti i punti assegnati a un cluster e adattarli a un gaussiano multivariato. Quindi è possibile calcolare gli autovalori della matrice di covarianza adattata e tracciarli. Ci sono molti modi per farlo; forse il più noto e ampiamente usato è chiamato analisi dei componenti principali o PCA .

Una volta che hai gli autovalori (chiamato anche spettro), puoi esaminare le loro dimensioni relative per determinare quanto "disteso" il cluster si trova in determinate dimensioni. Meno uniforme è lo spettro, più "a forma di sigaro" è il cluster, e più uniforme è lo spettro, più sferico è il cluster. Si potrebbe persino definire una sorta di metrica per indicare quanto siano autonome gli valori non uniformi (entropia spettrale?); vedi http://en.wikipedia.org/wiki/Spectral_flatness .

Come vantaggio secondario, puoi esaminare i componenti principali (gli autovettori associati a autovalori di grandi dimensioni) per vedere "dove" i cluster "a forma di sigaro" puntano nel tuo spazio dati.

Naturalmente questa è un'approssimazione grezza per un cluster arbitrario, in quanto modella solo i punti del cluster come un singolo ellissoide. Ma, come ho detto, potrebbe darti un'idea.


+1 Semplicistico, forse; ma questo sembra efficace e pratico. Non sembra esserci alcun vantaggio nell'adattamento gaussiano multivariato: basta usare l'SVD dei dati centrati all'interno del cluster (che è essenzialmente PCA sul cluster).
whuber

@whuber sì, penso a quelli che fanno la stessa cosa! L'adattamento è più ciò che la teoria dice sta accadendo dietro le quinte, mentre il PCA è un'implementazione concreta di quel processo. Modificherò la mia risposta per renderlo più chiaro.
lmjohns3,

2

Gli algoritmi di clustering di correlazione come 4C, ERiC o LMCLUS di solito considerano i cluster come varietà lineari. Vale a dire iperpiani k-dimensionali in uno spazio d-dimensionale. Bene, per 4C ed ERiC solo localmente lineari, quindi in realtà possono essere non convessi. Ma cercano ancora di individuare gruppi di una ridotta dimensionalità locale.

Trovare cluster di forma arbitraria in dati ad alta dimensione è un problema piuttosto difficile. In particolare, a causa della maledizione della dimensionalità che consente allo spazio di ricerca di esplodere e allo stesso tempo richiede anche di avere dati di input molto più grandi se si vogliono ancora risultati significativi . Troppi algoritmi non prestano attenzione se ciò che trovano è ancora significativo o potrebbe anche essere casuale.

Quindi, in effetti, credo che ci siano altri problemi da risolvere prima di pensare alla convessità della non convessità di cluster complessi nello spazio ad alta dimensione.

Dai anche un'occhiata alla complessità del calcolo dello scafo convesso in dimensioni superiori ...

Inoltre, hai un vero caso d'uso per questo oltre la curiosità?


2

Se la dimensionalità non è molto superiore a 2 o 3, potrebbe essere possibile proiettare il cluster di interesse nello spazio 2D più volte e visualizzare i risultati o utilizzare la misurazione 2D della non linearità. Ho pensato a questo a causa del metodo Proiezioni casuali http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf .

Le proiezioni casuali possono essere utilizzate per ridurre la dimensionalità al fine di costruire un indice. La teoria è che se due punti sono vicini in dimensioni D e si prende una proiezione casuale in dimensioni d con d

Per concretezza, puoi pensare di proiettare un globo su una superficie piana. Indipendentemente da come lo progetti, New York e New Jersey saranno insieme, ma raramente spingerai insieme New York e Londra.

Non so se questo può aiutarti rigorosamente, ma potrebbe essere un modo rapido per visualizzare i cluster.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.