Formalizzazioni di clustering diverse da K significano dati separabili


11

I dati del mondo reale a volte hanno un numero naturale di cluster (il tentativo di raggrupparli in un numero di cluster inferiore a qualche k magico causerà un drammatico aumento del costo del clustering). Oggi ho partecipato a una conferenza del Dr. Adam Meyerson e ha indicato quel tipo di dati come "dati separabili".

Quali sono alcune formalizzazioni di clustering, diverse dai mezzi K, che potrebbero essere suscettibili di algoritmi di clustering (approssimazioni o euristiche) che sfrutteranno la naturale separabilità dei dati?

Risposte:


11

Un modello recente che cerca di catturare tale idea è di Balcan, Blum e Gupta '09. Forniscono algoritmi per vari obiettivi di clustering quando i dati soddisfano un determinato presupposto: vale a dire che se i dati sono tali che qualsiasi approssimazione per l'obiettivo di clustering è ϵ -chiude al clustering ottimale, allora possono fornire algoritmi efficienti per trovare un quasi clustering ottimale, anche per valori di c per i quali trovare l' approssimazione c è NP-Hard. Questo è un presupposto sul fatto che i dati siano in qualche modo "belli" o "separabili". Lipton ha un bel post sul blog su questo.cϵcc

αα

Sono sicuro che ci sono lavori precedenti e precedenti nozioni pertinenti, ma questi sono alcuni risultati teorici recenti relativi alla tua domanda.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.