Sto cercando di accelerare con R. Alla fine voglio usare le librerie R per fare la classificazione del testo. Mi stavo solo chiedendo quali sono le esperienze delle persone riguardo alla scalabilità di R quando si tratta di fare una classificazione del testo.
Probabilmente incapperò in dati ad alta dimensione (dimensioni ~ 300k). Sto cercando di utilizzare SVM e Random Forest in particolare come algoritmi di classificazione.
Le librerie R si ridimensionerebbero alla mia dimensione del problema?
Grazie.
EDIT 1: Solo per chiarire, è probabile che il mio set di dati abbia 1000-3000 righe (forse un po 'di più) e 10 classi.
EDIT 2: Dato che sono molto nuovo su R, chiederò ai poster di essere più specifici ove possibile. Ad esempio, se stai suggerendo un flusso di lavoro / pipeline, assicurati di menzionare le librerie R coinvolte in ogni passaggio, se possibile. Alcuni suggerimenti aggiuntivi (ad esempio, codice di esempio ecc.) Sarebbero la ciliegina sulla torta.
EDIT 3: prima di tutto, grazie a tutti per i vostri commenti. E in secondo luogo, chiedo scusa, forse avrei dovuto dare più contesto al problema. Sono nuovo di R ma non tanto per la classificazione del testo. Ho già eseguito la pre-elaborazione (stemming, rimozione di stopword, conversione tf-idf ecc.) Su alcune parti dei miei dati utilizzando il pacchetto tm , solo per avere un'idea delle cose. Sono stato così lento anche su circa 200doc che mi sono preoccupato per la scalabilità. Poi ho iniziato a giocare con FSelector e anche quello è stato molto lento. E questo è il punto in cui ho realizzato il mio PO.
EDIT 4: Mi è appena venuto in mente che ho 10 classi e circa ~ 300 documenti di formazione per classe, e in effetti sto costruendo la matrice termXdoc dall'intero set di formazione risultando in un'altissima dimensionalità. Ma che ne dite di ridurre ogni problema di classificazione 1-su-k a una serie di problemi di classificazione binaria? Ciò ridurrebbe drasticamente il numero di documenti di formazione (e quindi la dimensionalità) in ciascuna delle fasi del k-1 considerevolmente, no? Quindi questo approccio è valido? Come si confronta in termini di precisione con la solita implementazione multi-classe?