Attualmente sto cercando set di dati etichettati per addestrare un modello per estrarre entità nominate dal testo informale (qualcosa di simile ai tweet). Poiché i documenti nel mio set di dati mancano spesso di lettere maiuscole e grammaticali, sto cercando dati di dominio un po 'più "informali" rispetto all'articolo di notizie e alle voci di diario che molti dei sistemi di riconoscimento delle entità all'avanguardia di oggi sono addestrato su.
Qualche consiglio? Finora sono stato in grado di individuare solo 50k token da Twitter pubblicati qui .