Sto cercando corpus di testo di grandi dimensioni (> 1000) da scaricare. Preferibilmente con notizie dal mondo o qualche tipo di report . Ne ho trovato solo uno con brevetti. Eventuali suggerimenti?
Sto cercando corpus di testo di grandi dimensioni (> 1000) da scaricare. Preferibilmente con notizie dal mondo o qualche tipo di report . Ne ho trovato solo uno con brevetti. Eventuali suggerimenti?
Risposte:
Che dire di Wikiws ? Ecco l'ultimo dump del database che ho trovato: http://dumps.wikimedia.org/enwikinews/20111120/
Probabilmente vuoi "Tutte le pagine, solo le versioni attuali" - versione.
Il corpus di testo reuters è un classico nel campo e può essere trovato qui
http://endb-consolidated.aihit.com/datasets.htm contiene 10K aziende con descrizioni testuali
Se la recency non è un problema, puoi provare
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
e ci sono molti altri set di dati simili in infochimp a seconda del budget.
Saluti, Andy.
Se desideri n-grammi precompilati, puoi provare l'archivio di google books: