Dove posso ottenere una serie diversificata di testo di esempio? [chiuso]


14

Sto cercando di raccogliere statistiche sulle sequenze di caratteri o parole utilizzate in lingua inglese per l'utilizzo in un progetto software.

Dove posso ottenere una grande quantità (diversi GB sarebbero carini) di testo in inglese che copre una vasta gamma di argomenti?


3
In qualche modo sento che ti
piaceranno

@Yannis Rizos Questi sono fantastici: D.
JSideris,

@Yannis Rizos oh theyre pretty ...
sevenseacat,

@YannisRizos Questo è stato chiuso alcuni anni fa. Sono finalmente riuscito a modificare la domanda in modo che sia un po 'più specifico e migliore per il formato QA. Posso chiuderlo adesso? (Sei l'unica persona su questo thread che è ancora un moderatore).
JSideris,

Risposte:


19

È possibile utilizzare i dump di dati di Wikipedia . Il dump di dati XML per Wikipedia in inglese che include solo le revisioni attuali è di circa 31 GB, quindi direi che sarebbe un buon inizio per la tua ricerca. Il dump dei dati è piuttosto grande, quindi dovresti considerare di estrarre i testi da XML con un parser SAX. WikiXMLJ è una comoda API Java ottimizzata per Wikipedia.

E poi, ovviamente, c'è sempre il dump dei dati di Stack Exchange . L' ultimo include tutti i siti pubblici non beta di Stack Exchange e i corrispondenti siti Meta fino a settembre 2011. Ma, naturalmente, i post di Stack Exchange sono concentrati sull'ambito di ciascun sito, quindi probabilmente non generalizzato come si vorrebbe. I meta post sono un po 'più generici, quindi potresti considerarli oltre a Wikipedia.

Non credo che troverai niente di meglio, specialmente nel testo normale. Numerosi set di dati aperti sono disponibili tramite l'hub dati , ma penso che il dump dei dati di Wikipedia in inglese sia molto vicino a quello che stai cercando.


1
quelle sono alcune risorse interessanti.
hanzolo,

Quelli Stack, sebbene estesi, copriranno un campo molto ristretto di discorso (per necessità), quindi potrebbero non generalizzare bene.
jonsca,

Oddio, questi file sono enormi! Non appena riesco a trovare un modo per aprirli e filtrare tutte le cazzate XML, questo dovrebbe funzionare alla grande. Grazie!
JSideris,

1
@Bizorke Lieto di poterti aiutare. Al termine, è necessario aggiornare la domanda con un collegamento alla ricerca.
yannis,

5

Google ha una raccolta di set di dati che utilizzano per determinare le probabilità n-gram. Esaminare i loro set di dati bigram (2 grammi) dovrebbe darti una buona immagine. Ci sono molti altri corpi là fuori per i quali queste analisi sono già state fatte.


3
Stavo solo scrivendo la stessa cosa.
jcmeloni,

@jcmeloni Great minds!
jonsca,

5

Il progetto Gutenberg ha un vasto corpus di testi in inglese, già in forma testuale.

Project Gutenberg offre oltre 42.000 e-book gratuiti: scegli tra libri epub gratuiti, libri kindle gratuiti, scaricali o leggili online.

Disponiamo di ebook di alta qualità: tutti i nostri ebook sono stati precedentemente pubblicati da editori in buona fede. Li abbiamo digitalizzati e diligentemente revisionati con l'aiuto di migliaia di volontari ...


1
Ho pensato al Progetto Gutenberg ma non sono riuscito a trovare un dump di dati concentrato. E affinché un libro sia incluso, il suo copyright deve scadere e generalmente ciò significa che sono trascorsi dai 50 ai 70 anni dalla prima pubblicazione dei libri. Quindi non credo che, come set di dati, il Progetto Gutenberg sia rappresentativo della lingua utilizzata oggi.
yannis,

1
Se vuoi qualcosa che sia "rappresentativo della lingua utilizzata oggi", prova i commenti di YouTube. Triste ma vero.
Jörg W Mittag,

@ JörgWMittag - ouch. Ciò che mi preoccupa davvero è come non sbagli.
Michael Kohne,

@ Jörg W Mittag È possibile, ma alcune parole specifiche per YouTube comparirebbero molto frequentemente, come: YO OU UT TU UB BE, o peggio ancora: FA AK KE AN ND GA AY
JSideris

1

Per le statistiche, probabilmente stai guardando "Frequenza del Bigram in lingua inglese". Dai un'occhiata a: Statistiche di Wiki-Bigram

per quanto riguarda la ricerca di un testo di grandi dimensioni, si noti che la frequenza sarebbe distorta dal tipo di testo. Ad esempio, se analizzi gli indirizzi otterrai risultati diversi dall'analisi delle storie dei giornali. Se vuoi solo testare, puoi utilizzare qualsiasi file PDF di un libro (meglio non essere un libro di matematica o di programmazione o medico) e convertirlo in testo, quindi eseguire i test. Puoi anche convertire le pagine web dei giornali in testo e lavorare su quelli.


2
Sì, mi rendo conto che i risultati saranno distorti. Ho bisogno di una risorsa che copra il maggior numero di argomenti possibile. Ho considerato di scaricare un sacco di e-book, il problema principale è convertirli tutti in testo. Ma non sarebbe male cercare alcune statistiche di bigram (non mi rendevo conto che così si chiamavano le combinazioni di 2 lettere).
JSideris,

Grazie per il tuo commento. Puoi convertire PDF in testo usando File -> Salva come testo nel lettore PDF ADOBE. Questo link potrebbe anche essere utile: data-compression.com/english.html
NoChance

@EmmadKareem OP richiede diversi GB di testo. Stai seriamente suggerendo di usare Adobe Reader per estrarre il testo dai PDF?
yannis,

@YannisRizos, non ho notato che diversi GB erano un requisito obbligatorio. In tal caso, esistono strumenti migliori che possono essere utilizzati a tale scopo. Grazie per averlo segnalato.
NoChance,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.