Libri o articoli consigliati come introduzione all'analisi dei cluster?

12

Sto lavorando a un piccolo corpus di testo (200 M), che voglio esplorare con alcune analisi di cluster. Quali libri o articoli su quell'argomento consiglieresti?

machine-learning references clustering

— miku
fonte

6

Vale la pena guardare i libri di MW Berry:

Survey of Text Mining I: Clustering, Classification and Retrieval (2003)
Survey of Text Mining II: Clustering, Classification and Retrieval (2008)

Sono costituiti da una serie di documenti applicati e di revisione. L'ultima sembra essere disponibile in PDF al seguente indirizzo: http://bit.ly/deNeiy .

Ecco alcuni link relativi alla CA applicati al mining di testo:

Puoi anche esaminare l' analisi semantica latente , ma vedere la mia risposta lì: risolvere un problema di clustering .

— chl
fonte

5

Ricerca di gruppi nei dati. Un'introduzione all'analisi dei cluster dei professori Leonard Kaufman e Peter J. Rousseeuw.

Sto leggendo il libro e lo trovo molto utile perché:

Come affermato dagli autori nella prefazione:

Il nostro scopo era quello di scrivere un libro applicato per l'utente generico. Volevamo rendere l'analisi dei cluster disponibile per le persone che non hanno necessariamente un forte background matematico o statistico.

Fornisce contenuti teorici per comprendere le funzioni disponibili nel Rpacchetto Cluster .
I capitoli possono essere letti individualmente secondo il metodo di interesse del cluster.
_{l'eccezione è il capitolo 3, che si basa sul capitolo 2}

I capitoli del libro sono:

introduzione
Partizionamento intorno ai medoidi (programma PAM).
Clustering di grandi applicazioni (programma CLARA).
Analisi fuzzy (programma DIVERTENTE).
Nestlazione agglomerativa (programma AGNES).
Divisive Analysis (Programma DIANA).
Analisi monotetica (Programma MONA).

Riferimenti:

Kaufman, L., & Rousseeuw, PJ (2005). Ricerca di gruppi nei dati. Un'introduzione all'analisi dei cluster (p. 342). John Wiley & Sons Inc.

Maechler, M. (2013). Cluster Analysis Extended Rousseeuw et al. CRAN.

— Andre Silva
fonte

Questo libro offre davvero una bella panoramica del campo. Si concentra su alcuni algoritmi / metodi (ad esempio la sagoma ben nota, che sembra essere stata progettata da uno degli autori del libro) e li copre ampiamente. Inoltre viene fornito con un po 'di codice, ma in stile 1990. FYI: indice completo .

— Franck Dernoncourt,

4

Questo capitolo di Introduzione al Data Mining è disponibile online e offre una buona panoramica.

— Shane
fonte

Ed ecco il link alla 2a edizione (2018).

— Richard Hardy,

2

Cluster Analysis di Brian S. Everitt è un bel trattamento di Cluster Analysis applicato per la lunghezza del libro.

— Brett
fonte

1

Non in particolare sul text mining, ma mi è piaciuta molto "Exploratory Data Analysis with MATLAB" di Martinez e Martinez.

— nico
fonte

1

Un altro libro di approfondimento degno di nota: Manuale di analisi dei cluster di Hennig et al. (2015)

— tbeck
fonte