Estrai la maggior parte delle parti informative del testo dai documenti


16

Ci sono articoli o discussioni sull'estrazione di parte del testo che contiene la maggior parte delle informazioni sul documento corrente.

Ad esempio, ho un ampio corpus di documenti dello stesso dominio. Ci sono parti di testo che contengono le informazioni chiave di cui parla un singolo documento. Voglio estrarre alcune di quelle parti e usarle come una sorta di sommario del testo. Esiste una documentazione utile su come ottenere qualcosa del genere.

Sarebbe davvero utile se qualcuno potesse indirizzarmi nella giusta direzione cosa dovrei cercare o leggere per ottenere una visione del lavoro che potrebbe essere già stato fatto in questo campo dell'elaborazione del linguaggio naturale.

Risposte:


23

Quello che stai descrivendo viene spesso realizzato usando una semplice combinazione di TF-IDF e sintesi riassuntiva .

In breve, TF-IDF ti dice l'importanza relativa di ogni parola in ciascun documento, rispetto al resto del tuo corpus. A questo punto, hai un punteggio per ogni parola in ciascun documento che si avvicina alla sua "importanza". Quindi è possibile utilizzare questi punteggi di singole parole per calcolare un punteggio composito per ogni frase sommando i punteggi di ogni parola in ciascuna frase. Infine, prendi semplicemente le frasi con il punteggio N più alto da ciascun documento come riassunto.

All'inizio di quest'anno, ho messo insieme un notebook iPython che culmina con un'implementazione di questo in Python usando NLTK e Scikit-learn: A Smattering of NLP in Python .


2
Sì, probabilmente sarebbe quello. Potrei anche aggiungere pesi aggiuntivi ad alcune parole, che so già che sono informativi. Grazie per l'aiuto e i link utili.
MaticDiba,

Quindi posso usarlo su un pdf? :)
Adam,

Sì, puoi usarlo sul testo in un PDF, supponendo che tu abbia già estratto il testo normale dal PDF usando qualcosa come pdftotext.
Charlie Greenbacker,

1

Molte tecniche di estrazione di parole chiave disponibili dipendono da fattori come:

  1. Qualità grammaticale del testo
  2. Lunghezza del testo
  3. Sia che tu stia cercando una singola parola chiave o una frase a frase ecc.

Ma in generale, se hai un testo lungo e vuoi estrarre automaticamente le parole chiave da ciò, ti consiglio di leggere i seguenti articoli:

  1. TextRank

  2. RAKE [Estrazione rapida automatica di parole chiave]

  3. Topica

Inoltre per estrarre parole chiave personalizzate (speciali) che non provengono dalle tecniche di cui sopra, dai un'occhiata al seguente post:

Estrai parole chiave personalizzate usando il tagger POS NLTK in python

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.