Alla ricerca di dati artificiali 2D per dimostrare le proprietà degli algoritmi di clustering


9

Sto cercando set di dati di punti dati bidimensionali (ogni punto dati è un vettore di due valori (x, y)) che seguono diverse distribuzioni e forme. Anche il codice per generare tali dati sarebbe utile. Voglio usarli per tracciare / visualizzare le prestazioni di alcuni algoritmi di clustering. Ecco alcuni esempi:


Io voto per cw;)
steffen,

Una domanda simile in linee di set di dati specifici è stato chiuso qui: stats.stackexchange.com/questions/38928/...
carro funebre

Per SPSS, ho scritto una macro che genera cluster (visita la mia pagina, vedi "Genera cluster"). Tuttavia, non produce forme pretenziose come anelli o spirali.
ttnphns,

Risposte:


11

R viene fornito con molti set di dati e sembra che non sarebbe molto importante riprodurre la maggior parte degli esempi citati con poche righe di codice. È inoltre possibile trovare utile il pacchetto mlbench , in particolare set di dati sintetici che iniziano con mlbench.*. Alcune illustrazioni sono riportate di seguito.

inserisci qui la descrizione dell'immagine

Troverai altri esempi guardando la Visualizzazione attività del cluster su CRAN. Ad esempio, il pacchetto fpc ha un generatore integrato per set di dati di benchmark cluster "a forma di faccia" ( rFace).

inserisci qui la descrizione dell'immagine

Considerazioni simili si applicano a Python, dove troverete interessanti test di benchmark e set di dati per il clustering con scikit-learn .

UCI Machine Learning Repository ospita anche un sacco di set di dati , ma è meglio simulare i dati da soli con la lingua che preferisci.



2

Questo benchmark di raggruppamento di giocattoli contiene vari set di dati in formato ARFF (potrebbe essere facilmente convertito in CSV), principalmente con etichette di verità sul terreno. Il benchmark dovrebbe convalidare le proprietà di base desiderate degli algoritmi di clustering. La maggior parte dei set di dati proviene dai documenti del clustering come:

  • BIRCH - Zhang, Tian, ​​Raghu Ramakrishnan e Miron Livny. "BIRCH: un metodo efficiente di clustering di dati per database molto grandi." Record ACM SIGMOD. Vol. 25. No. 2. ACM, 1996.
  • CURE - Guha, Sudipto, Rajeev Rastogi e Kyuseok Shim. "CURE: un algoritmo di clustering efficiente per database di grandi dimensioni." Record ACM SIGMOD. Vol. 27. No. 2. ACM, 1998.
  • Camaleonte - Karypis, George, Eui-Hong Han e Vipin Kumar. "Chameleon: clustering gerarchico che usa la modellazione dinamica." Computer 32.8 (1999): 68-75.
  • The Fundamental Clustering Problem Suite - Ultsch, A .: Clustering con SOM: U * C, in proc. Workshop on Self-Organizing Maps, Parigi, Francia, (2005), pagg. 75-82
  • MOCK - Handl, Julia e Joshua Knowles. "Un approccio evolutivo al clustering multi-oggettivo." Calcolo evolutivo, Transazioni IEEE dell'11.1 (2007): 56-76.
  • Clustering spettrale basato sul percorso : Chang, Hong e Dit-Yan Yeung. "Clustering spettrale basato sul percorso robusto." Pattern Recognition 41.1 (2008): 191-203.

dati di Karypis dati di cluto


1

ELKI viene fornito con un paio di set di dati (controlla anche i test unitari, ne contengono molti di più rispetto a quelli sul sito web, insieme alle impostazioni dei parametri).

Include anche un generatore di dati abbastanza flessibile.


1

Ecco un generatore di cluster personalizzabile. Si rivolge solo a una determinata classe di set di dati, ma può sicuramente essere utilizzato per le indagini sugli algoritmi del cluster.

Ecco un esempio del tipo di cluster che può creare:

http://i.stack.imgur.com/vrCG5.png

L'affiliazione al cluster viene salvata in un file di testo. Il codice è open source con licenza MIT.


1

Questo script Matlab genera dati 2D per il clustering. Accetta diversi parametri in modo che i dati generati rientrino nei requisiti dell'utente.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.