Set di dati per il riconoscimento di entità nominate su testo informale

18

Attualmente sto cercando set di dati etichettati per addestrare un modello per estrarre entità nominate dal testo informale (qualcosa di simile ai tweet). Poiché i documenti nel mio set di dati mancano spesso di lettere maiuscole e grammaticali, sto cercando dati di dominio un po 'più "informali" rispetto all'articolo di notizie e alle voci di diario che molti dei sistemi di riconoscimento delle entità all'avanguardia di oggi sono addestrato su.

Qualche consiglio? Finora sono stato in grado di individuare solo 50k token da Twitter pubblicati qui .

dataset nlp

— Madison May
fonte

2

Consiglio di chiedere su opendata.stackexchange.com

— Air

@Madison May. Hai trovato un set di dati? Sto cercando qualcosa di simile. Grazie.

— ahoffer,

Ho dovuto accontentarmi del twitter ner corpus di U. Washington (collegato al post originale).

— Madison,

FYI Corpus di testo taggato (giornali inglesi o qualsiasi testo taggato)

— Franck Dernoncourt,

hai qualche buon corpus inglese annotato correlato?

— Achyuta nanda sahoo,

6

A quanto ho capito, queste sono le proprietà che stai cercando in un set di dati di esempio:

Dati di testo
Dovrebbe essere informale, cioè avere errori di battitura, slang e fondamentalmente qualcosa che non è stato modificato professionalmente
Qualcosa di diverso da Twitter (non ti biasimo, Twitter è un'origine dati di esempio utile ma molto abusata nel mining di testo)

Ecco alcuni consigli:

E-mail dal corpus SpamAssassin - nota che sono disponibili sia set di dati "ham" (non spam) che spam
set di dati microblogPCU da UCI, che è un dato estratto dai microblog degli utenti di Sina Weibo - nota, i dati di testo non elaborati sono un mix di cinese e inglese (puoi eseguire la traduzione automatica del cinese, filtrare solo in inglese o usarlo come è)
Amazon Commerce esamina il set di dati di UCI
All'interno del set di dati bag-o-words , prova a utilizzare le e-mail di Enron
Il set di dati di venti newsgroup
Questa bella raccolta di spam SMS
Puoi sempre raschiare (estrarre) i tuoi dati di testo da Internet; Non sono sicuro di quale lingua o pacchetto di statistica che si sta utilizzando, ma pacchetti XPath-based sono disponibili in R ( rvest, scrapeR, ecc) e Python per raggiungere questo obiettivo

— Hack-R
fonte

1

Qualcuno di questi set di dati è annotato con entità con nome? Credo sia quello che OP stava cercando.

— Mr. Phil,

3

Controlla questi:

Deposito dei domini di prova per l'estrazione di informazioni: http://www.isi.edu/info-agents/RISE/repository.html

DBpedia: http://wiki.dbpedia.org/Downloads32 ( mirror )

Link aggiornato:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set

— Sreejithc321
fonte

1

Aggiorna questi collegamenti poiché nessuno di essi funziona più.

— Mr. Phil,

0

Alcune delle fonti che ho usato:

Il classico Corpus CONLL : set di dati CONLL
Una fonte Kaggle che vale la pena provare: Kaggle NER Corpus
OntoNotes Release 5.0: Onto Notes
Attività di riconoscimento delle entità bio : entità bio
Un altro set di dati relativo all'email: Enron Set di dati e-mail

Penso che questi set di dati saranno di grande aiuto per il tuo compito

— Gyan Ranjan
fonte