Esempi di mining di testo con R (pacchetto tm)


14

Ho trascorso tre giorni a dilettarmi tmdopo aver letto una bozza di un amico in cui ha esplorato un corpus di testo con UCINET, mostrando nuvole di testo, grafici di rete a due modalità e decomposizione a valore singolo (con grafica, usando Stata). Ho riscontrato un gran numero di problemi: su Mac OS X, ci sono problemi con Java dietro le librerie come Snowball (stemming) o Rgraphviz (grafici).

Qualcuno potrebbe indicare non pacchetti - ho guardato tm, wordfishe wordscores, e so, di NLTK - ma ricerche, se possibile con codice, su dati testuali, che usano con successo tmo qualcos'altro per analizzare dati come dibattiti parlamentari o documenti legislativi? Non riesco a trovare molto sul problema, e ancora meno codice da cui imparare.

Il mio progetto è un dibattito parlamentare di due mesi, con queste variabili informate in un file CSV: sessione parlamentare, oratore, gruppo parlamentare, testo dell'intervento orale. Sto cercando divergenze tra oratori e soprattutto tra gruppi parlamentari nell'uso di termini rari e meno rari, ad esempio "colloquio di sicurezza" contro il discorso "libertà civili".


Risposte:


7

La tesi di dottorato dell'autore di tm, Ingo Feinerer dall'Austria, è scritta in inglese. I capitoli 7-10 di questo documento contengono applicazioni del pacchetto tm, con crescente complessità.

http://epub.wu.ac.at/1923/

Il capitolo 7 presenta un'applicazione di tm analizzando la mailing list di R-devel 2006. Il capitolo 8 mostra un'applicazione di text mining per il commercio elettronico tra imprese e consumatori. Il capitolo 9 è un'applicazione di TM per indagare sulle giurisdizioni supreme del tribunale amministrativo austriaco in materia di diritti e tasse. [...] . Il capitolo 10 mostra un'applicazione per l'attribuzione di stometometria e paternità sul set di dati Wizard of Oz.

Leggi l'intero documento da copertina a copertina. Si noti, tuttavia, che il documento è stato scritto nel 2008 e da allora ci sono state alcune modifiche all'API, ad esempio, la tesi di dottorato menziona una funzione a tmMap()cui è stato rinominato tm_map(). Quindi gli esempi di codice non funzioneranno così come sono, non è possibile utilizzare taglia e incolla per provarli.

Puoi anche andare a

http://tm.r-forge.r-project.org/users.html

"Nel tentativo di informare i nuovi utenti sulle applicazioni esistenti di tm, questo sito mira a fornire un elenco alfabetico incompleto degli utenti tm e i loro commenti. Gli utenti noti vanno dagli istituti di ricerca alle aziende alle persone."

e cerca su quella pagina la frase "ha scritto un documento" e troverai molti link. Ho letto solo uno degli articoli, "rilevazione automatica dell'argomento nei testi delle canzoni". Abbastanza interessante e divertente.


Penso che la tesi di Feinerer sia il documento che mi ha aiutato di più finora. Grazie!
P.

5

Un buon punto di partenza potrebbe essere l' elenco delle pubblicazioni sul sito Web pertm , come questo:

L'elenco dei riferimenti alla fine di ciascuna di queste pubblicazioni include applicazioni di successo di tm , che è ciò che sembra stia cercando. Ce ne sono molti, specialmente se segui i riferimenti dei riferimenti.

Ad esempio, eccone uno che potrebbe essere rilevante:

Feinerer I, Hornik K (2007). \ Text Mining of Supreme Administrative Court Jurisdictions. "In C Preisach, H Burkhardt, L Schmidt-Thieme, R Decker (a cura di), \ Data Analysis, Machine Learning e Applications (Atti della 31a Conferenza annuale della Gesellschaft f ur Klassikation eV, 7 marzo {9, 2007, Friburgo, Germania), "Studi di classicizzazione, analisi dei dati e organizzazione della conoscenza. Springer-Verlag.

In bocca al lupo.


Grazie per i riferimenti. Il livello di dettaglio è tuttavia insufficiente in queste pubblicazioni - ho dovuto leggere dalla tesi di Feinerer per ottenere abbastanza dettagli su come operare tmda parte mia. Ancora grazie mille :)
P.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.