Suggerisci set di dati di addestramento per la classificazione dei testi

9

Quali set di dati disponibili gratuitamente posso usare per addestrare un classificatore di testo?

Stiamo cercando di migliorare il coinvolgimento dei nostri utenti raccomandandogli il contenuto più correlato, quindi abbiamo pensato che se avessimo classificato i nostri contenuti in base a un sacco di parole predefinito, potremmo consigliargli di coinvolgere i contenuti ottenendo il loro feedback su un numero casuale di post già classificati prima.

Possiamo usare queste informazioni per raccomandargli impulsi etichettati con quelle classi. Ma abbiamo scoperto che se abbiamo usato un insieme predefinito di parole non correlate al nostro contenuto, il vettore della funzione sarà pieno di zeri, anche le categorie potrebbero non essere pertinenti al nostro contenuto. quindi per questi motivi abbiamo provato un'altra soluzione che raggrupperebbe i nostri contenuti senza classificarli.

Grazie :)

— Abdelmawla
fonte

1

Penso che siano necessari ulteriori dettagli sul tuo problema prima che qualcuno possa raccomandare un set di dati.

— Neil Slater,

3

Per quale scopo? Filtro antispam? Analisi del sentimento? Senza uno scopo chiaro, è molto difficile suggerire un set di dati.

— LSR

@lsdr Guardando le risposte, sembra che la domanda non abbia necessariamente bisogno di maggiori dettagli.

— Amir Ali Akbari,

@AmirAliAkbari Penso che siano venuti dopo una modifica. Ho ritirato il mio voto da vicino, comunque.

— Rubens,

Un luogo più appropriato per questa domanda è opendata.stackexchange.com

— sheldonkreger

14

Alcuni set di dati standard per la classificazione del testo sono il gruppo 20-News, Reuters (con 8 e 52 classi) e WebKb. Puoi trovarli tutti qui .

— Debasis
fonte

Grazie :), l'ho già visitato prima, ma ho scoperto che le sue classificazioni sono deboli non abbastanza astratte o potrebbero non essere correlate al mio contenuto

— Abdelmawla,

7

Una delle raccolte di test più utilizzate per la ricerca sulla categorizzazione del testo (link sotto). L'ho usato molte volte. Buona esplorazione :)

http://www.daviddlewis.com/resources/testcollections/reuters21578/ o http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

— Hammam
fonte

5

Ci sono un sacco di set di dati resi liberi da UC Irvine con cui giocare qui . Tra questi set di dati, ci sono alcune dozzine di set di dati testuali che potrebbero aiutarti ragazzi con il tuo compito.

Questi sono tipi di set di dati generici, quindi a seconda del tuo scopo non dovrebbero essere usati come unici dati per addestrare i tuoi modelli, altrimenti il tuo modello - mentre potrebbe funzionare - non produrrà risultati di qualità.

— lsdr
fonte

1

Oltre ai suggerimenti di cui sopra, esiste un pdf estremamente utile - Benchmarking di raccolte di testi per attività di classificazione e cluster che contiene vari set di dati insieme ai benchmark per testare i nostri modelli. Ciò include 20ng Collection, Reuters e molti dei set di dati suggeriti sopra. Spero possa essere d'aiuto!

— Hima Varsha
fonte