Ho trascorso tre giorni a dilettarmi tmdopo aver letto una bozza di un amico in cui ha esplorato un corpus di testo con UCINET, mostrando nuvole di testo, grafici di rete a due modalità e decomposizione a valore singolo (con grafica, usando Stata). Ho riscontrato un gran numero di problemi: su Mac OS X, ci sono problemi con Java dietro le librerie come Snowball (stemming) o Rgraphviz (grafici).
Qualcuno potrebbe indicare non pacchetti - ho guardato tm, wordfishe wordscores, e so, di NLTK - ma ricerche, se possibile con codice, su dati testuali, che usano con successo tmo qualcos'altro per analizzare dati come dibattiti parlamentari o documenti legislativi? Non riesco a trovare molto sul problema, e ancora meno codice da cui imparare.
Il mio progetto è un dibattito parlamentare di due mesi, con queste variabili informate in un file CSV: sessione parlamentare, oratore, gruppo parlamentare, testo dell'intervento orale. Sto cercando divergenze tra oratori e soprattutto tra gruppi parlamentari nell'uso di termini rari e meno rari, ad esempio "colloquio di sicurezza" contro il discorso "libertà civili".