Di recente ho letto quattro libri in questo campo:
Feldman, R. e James Sanger, J. (2006). Manuale di estrazione del testo: approcci avanzati nell'analisi dei dati non strutturati. Cambridge University Press.
Questo si concentra su esempi pratici, software e mining di testo applicato. Fornisce numerosi esempi di utilizzo pratico del text mining. Potrebbe essere interessante se desideri leggere informazioni sulle applicazioni commerciali degli strumenti di mining del testo.
Srivastava, AN e Sahami, M. (2009). Estrazione del testo: classificazione, clustering e applicazioni. Chapman & Hall / CRC.
Si tratta di una serie di articoli di ricerca che vengono utilizzati come esempi di utilizzo di diversi strumenti di estrazione del testo. È piuttosto troppo concentrato per quanto riguarda il test introduttivo.
Weiss, SM, Indurkhya, N., Zhang, T. e Damerau, F. (2005). Estrazione del testo: metodi predittivi per l'analisi di informazioni non strutturate.
Springer.
Testo molto introduttivo che descrive alcuni problemi generali.
Manning, C. (1999). Fondamenti dell'elaborazione statistica del linguaggio naturale. MIT Premere.
Questo è il miglior libro che ho già letto su questo argomento. È ben scritto, chiaro, approfondisce la teoria ma in modo pratico. Inizia con un'introduzione generale, ma rivede alcuni dei metodi e degli algoritmi più comunemente usati. Se dovessi scegliere un solo libro, consiglierei questo.
Potresti anche trovare facilmente più libri sull'elaborazione del linguaggio naturale e sull'estrazione del testo incentrati sull'uso di R ( libreria tm ) o Python ( libreria nltk ).