Buoni libri sull'estrazione del testo?


11

Ciao, volevo sapere se ci sono alcuni buoni libri sull'estrazione del testo e la classificazione con alcuni casi studio. Altrimenti alcuni giornali / riviste accessibili al pubblico farebbero. Se illustrano i loro esempi con R ancora meglio. Non sto cercando un manuale passo passo, ma qualcosa che illustri i pro ei contro di vari approcci di mining del testo a varie classi di problemi.

Risposte:


5

Dai un'occhiata a http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf Elaborazione di testi ad alta intensità di dati con MapReduce: questo libro è abbastanza accademico ma tratta una serie di tecniche di elaborazione del testo comunemente usate e come possono essere parallizzate su set di dati di grandi dimensioni utilizzando map riduci.

www.rtexttools.com Questo è un eccellente pacchetto R che ti aiuta ad applicare una vasta gamma di algoritmi di classificazione (inclusi alcuni metodi di ensemble) all'analisi del testo. e


4
Per rendere questa risposta autonoma, ti dispiacerebbe fornire un breve riassunto di ogni link?
chl

4

Di recente ho letto quattro libri in questo campo:

Feldman, R. e James Sanger, J. (2006). Manuale di estrazione del testo: approcci avanzati nell'analisi dei dati non strutturati. Cambridge University Press.

Questo si concentra su esempi pratici, software e mining di testo applicato. Fornisce numerosi esempi di utilizzo pratico del text mining. Potrebbe essere interessante se desideri leggere informazioni sulle applicazioni commerciali degli strumenti di mining del testo.

Srivastava, AN e Sahami, M. (2009). Estrazione del testo: classificazione, clustering e applicazioni. Chapman & Hall / CRC.

Si tratta di una serie di articoli di ricerca che vengono utilizzati come esempi di utilizzo di diversi strumenti di estrazione del testo. È piuttosto troppo concentrato per quanto riguarda il test introduttivo.

Weiss, SM, Indurkhya, N., Zhang, T. e Damerau, F. (2005). Estrazione del testo: metodi predittivi per l'analisi di informazioni non strutturate. Springer.

Testo molto introduttivo che descrive alcuni problemi generali.

Manning, C. (1999). Fondamenti dell'elaborazione statistica del linguaggio naturale. MIT Premere.

Questo è il miglior libro che ho già letto su questo argomento. È ben scritto, chiaro, approfondisce la teoria ma in modo pratico. Inizia con un'introduzione generale, ma rivede alcuni dei metodi e degli algoritmi più comunemente usati. Se dovessi scegliere un solo libro, consiglierei questo.

Potresti anche trovare facilmente più libri sull'elaborazione del linguaggio naturale e sull'estrazione del testo incentrati sull'uso di R ( libreria tm ) o Python ( libreria nltk ).


2

Questo potrebbe non essere esattamente il punto per quello che stai cercando, ma padroneggiare le espressioni regolari di Jeffrey Friedl è un'ottima fonte per imparare a usare le espressioni regolari per analizzare il testo. Non discute le tecniche di modellazione, ma, armato dei conteggi derivanti dall'applicazione di espressioni regolari, è possibile applicare una varietà di approcci di modellazione standard.


2

Un libro che torno più volte alle idee è Text Mining: Predictive Methods ... di Sholom Weiss. Ha molte idee per affrontare i problemi che trovo utili poiché a volte il mining del testo riguarda il provare diverse cose - Dizionario globale vs locale, numero di funzioni da conservare, ecc. Trovo che questo libro sia un buon generatore di idee. Ha anche casi di studio.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.