Suggerisci set di dati di addestramento per la classificazione dei testi


9

Quali set di dati disponibili gratuitamente posso usare per addestrare un classificatore di testo?

Stiamo cercando di migliorare il coinvolgimento dei nostri utenti raccomandandogli il contenuto più correlato, quindi abbiamo pensato che se avessimo classificato i nostri contenuti in base a un sacco di parole predefinito, potremmo consigliargli di coinvolgere i contenuti ottenendo il loro feedback su un numero casuale di post già classificati prima.

Possiamo usare queste informazioni per raccomandargli impulsi etichettati con quelle classi. Ma abbiamo scoperto che se abbiamo usato un insieme predefinito di parole non correlate al nostro contenuto, il vettore della funzione sarà pieno di zeri, anche le categorie potrebbero non essere pertinenti al nostro contenuto. quindi per questi motivi abbiamo provato un'altra soluzione che raggrupperebbe i nostri contenuti senza classificarli.

Grazie :)


1
Penso che siano necessari ulteriori dettagli sul tuo problema prima che qualcuno possa raccomandare un set di dati.
Neil Slater,

3
Per quale scopo? Filtro antispam? Analisi del sentimento? Senza uno scopo chiaro, è molto difficile suggerire un set di dati.
LSR

@lsdr Guardando le risposte, sembra che la domanda non abbia necessariamente bisogno di maggiori dettagli.
Amir Ali Akbari,

@AmirAliAkbari Penso che siano venuti dopo una modifica. Ho ritirato il mio voto da vicino, comunque.
Rubens,

Un luogo più appropriato per questa domanda è opendata.stackexchange.com
sheldonkreger

Risposte:


14

Alcuni set di dati standard per la classificazione del testo sono il gruppo 20-News, Reuters (con 8 e 52 classi) e WebKb. Puoi trovarli tutti qui .


Grazie :), l'ho già visitato prima, ma ho scoperto che le sue classificazioni sono deboli non abbastanza astratte o potrebbero non essere correlate al mio contenuto
Abdelmawla,


5

Ci sono un sacco di set di dati resi liberi da UC Irvine con cui giocare qui . Tra questi set di dati, ci sono alcune dozzine di set di dati testuali che potrebbero aiutarti ragazzi con il tuo compito.

Questi sono tipi di set di dati generici, quindi a seconda del tuo scopo non dovrebbero essere usati come unici dati per addestrare i tuoi modelli, altrimenti il ​​tuo modello - mentre potrebbe funzionare - non produrrà risultati di qualità.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.