Aiuto per quanto riguarda NER in NLTK


12

Ho lavorato in NLTK per un po 'usando Python. Il problema che sto affrontando è che il loro non è di aiuto disponibile sulla formazione di NER in NLTK con i miei dati personalizzati. Hanno usato MaxEnt e l'hanno addestrato su ACE corpus. Ho cercato molto sul Web, ma non sono riuscito a trovare alcun modo per allenare il NER di NLTK.

Se qualcuno può fornirmi qualsiasi link / articolo / blog ecc. Che può indirizzarmi al formato dei set di dati di training utilizzato nella formazione del NER di NLTK in modo che io possa preparare i miei set di dati su quel particolare formato. E se sono indirizzato a qualsiasi link / articolo / blog, ecc., Che può aiutarmi a addestrare il NER di NLTK per i miei dati.

Questa è una domanda ampiamente cercata e con meno risposta. Potrebbe essere utile per qualcuno in futuro il cui lavoro con NER.


Risposte:


4

La formazione di un modello, correlato all'estrazione delle informazioni , in generale, e il riconoscimento / risoluzione delle entità denominate (NER) , in particolare, è descritta in dettaglio nel capitolo 7 del libro NLTK , disponibile online a questo URL: http: //www.nltk .org / book / ch07.html .

Inoltre, penso che potresti trovare utile la mia risposta correlata sul sito con convalida incrociata . Ha molti riferimenti a fonti pertinenti su NER e argomenti correlati, nonché a vari strumenti software correlati .


Non menzionano come addestrare il modello NER su dati personalizzati, puoi dire come farlo?
Hima Varsha,

1
@HimaVarsha Non sono un esperto in questo settore. Tuttavia, ... penso che il modello NER NLTK sia pre-addestrato sul corpus conll2000 , quindi nessuna informazione nel libro NLTK. Controlla le seguenti risorse: 1. nltk-trainer.readthedocs.io (molto probabilmente quello di cui hai bisogno; probabilmente la sezione Training IOB Chunkers ). 2. sujitpal.blogspot.com/2012/11/… (potrebbe anche essere utile). 3. nlp.stanford.edu/software/crf-faq.shtml#a (nel caso in cui utilizzi o deciderai di utilizzare il software NER Stanford).
Aleksandr Blekh,

Penso che l'implementazione di Stanfordcrf richieda dati personalizzati, ma NTLK NER è appena pre-addestrato. Il Training IOB Chunkers è solo a pezzi, giusto? O fa anche NER?
Hima Varsha,

@HimaVarsha Prestare maggiore attenzione ai consigli che si stanno ricevendo. Se leggessi attentamente i post tramite il link n. 2, vedresti che il codice contiene sia la formazione del modello NER che l'esecuzione. Non credo di poterti aiutare oltre i consigli di cui sopra.
Aleksandr Blekh,


1

Ho trovato questo tutorial abbastanza utile: Guida completa per costruire il tuo Named Entity Recognizer con Python Utilizza il corpus Groningen Significato Bank (GMB) per addestrare il suo pezzo NER.

Dopodiché puoi controllare questo tutorial dalla stessa persona: Addestrare un sistema NER usando un set di dati di grandi dimensioni Dove usa scikit impara a migliorare le prestazioni del suo sistema.

Finalmente alcuni tutorial davvero utili possono essere trovati qui: tutorial NLTK Questo ragazzo ha un canale youtube con molti tutorial in molte materie (ML, NLP, Python ...)

Spero che sia d'aiuto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.