Dove trovare un corpus di testo di grandi dimensioni? [chiuso]


16

Sto cercando corpus di testo di grandi dimensioni (> 1000) da scaricare. Preferibilmente con notizie dal mondo o qualche tipo di report . Ne ho trovato solo uno con brevetti. Eventuali suggerimenti?


Questa discussione sembra essere fuori tema. Vedi meta.stats.stackexchange.com/questions/1032/… .
whuber

Questa domanda sembra fuori tema perché si tratta di trovare un set di dati, piuttosto che fare analisi statistiche
Peter Flom - Reintegrare Monica

2
Bene, è imbarazzante, perché questa domanda e risposta è davvero utile.
Spettacolo Bob

@guaka, ti preghiamo di non cancellare post così vecchi per modifiche minori, in particolare un post chiuso. È vero che la nostra preferenza di stile non è quella di avere "grazie", ma per qualcosa di così minore, lo lasceremmo e basta.
gung - Ripristina Monica

Risposte:




6

Il corpus di testo reuters è un classico nel campo e può essere trovato qui


Non è il corpus più interessante (o diversificato). La licenza è anche restrittiva rispetto a Wikileaks (documenti statunitensi di dominio pubblico) o wiki.
Ariddell,

@ariddell sono d'accordo, ma è comunemente usato negli esempi introduttivi della PNL, ed è abbastanza grande da essere utile nell'apprendimento ma abbastanza piccolo da essere analizzato su un buon laptop.
richiemorrisroe,



Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.