Set di dati per il riconoscimento di entità nominate su testo informale


18

Attualmente sto cercando set di dati etichettati per addestrare un modello per estrarre entità nominate dal testo informale (qualcosa di simile ai tweet). Poiché i documenti nel mio set di dati mancano spesso di lettere maiuscole e grammaticali, sto cercando dati di dominio un po 'più "informali" rispetto all'articolo di notizie e alle voci di diario che molti dei sistemi di riconoscimento delle entità all'avanguardia di oggi sono addestrato su.

Qualche consiglio? Finora sono stato in grado di individuare solo 50k token da Twitter pubblicati qui .


2
Consiglio di chiedere su opendata.stackexchange.com
Air

@Madison May. Hai trovato un set di dati? Sto cercando qualcosa di simile. Grazie.
ahoffer,

Ho dovuto accontentarmi del twitter ner corpus di U. Washington (collegato al post originale).
Madison,


hai qualche buon corpus inglese annotato correlato?
Achyuta nanda sahoo,

Risposte:


6

A quanto ho capito, queste sono le proprietà che stai cercando in un set di dati di esempio:

  1. Dati di testo
  2. Dovrebbe essere informale, cioè avere errori di battitura, slang e fondamentalmente qualcosa che non è stato modificato professionalmente
  3. Qualcosa di diverso da Twitter (non ti biasimo, Twitter è un'origine dati di esempio utile ma molto abusata nel mining di testo)

Ecco alcuni consigli:

  1. E-mail dal corpus SpamAssassin - nota che sono disponibili sia set di dati "ham" (non spam) che spam
  2. set di dati microblogPCU da UCI, che è un dato estratto dai microblog degli utenti di Sina Weibo - nota, i dati di testo non elaborati sono un mix di cinese e inglese (puoi eseguire la traduzione automatica del cinese, filtrare solo in inglese o usarlo come è)
  3. Amazon Commerce esamina il set di dati di UCI
  4. All'interno del set di dati bag-o-words , prova a utilizzare le e-mail di Enron
  5. Il set di dati di venti newsgroup
  6. Questa bella raccolta di spam SMS
  7. Puoi sempre raschiare (estrarre) i tuoi dati di testo da Internet; Non sono sicuro di quale lingua o pacchetto di statistica che si sta utilizzando, ma pacchetti XPath-based sono disponibili in R ( rvest, scrapeR, ecc) e Python per raggiungere questo obiettivo

1
Qualcuno di questi set di dati è annotato con entità con nome? Credo sia quello che OP stava cercando.
Mr. Phil,


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.