Estrazione di parole chiave / frasi dal testo usando le librerie di Deep Learning


20

Forse questo è troppo ampio, ma sto cercando riferimenti su come utilizzare l'apprendimento profondo in un compito di sintesi testuale.

Ho già implementato il riepilogo del testo utilizzando approcci di frequenza di parole standard e classificazione delle frasi, ma mi piacerebbe esplorare la possibilità di utilizzare tecniche di apprendimento profondo per questo compito. Ho anche esaminato alcune implementazioni fornite su wildml.com usando Convolutional Neural Networks (CNN) per l'analisi del sentiment; Mi piacerebbe sapere come si potrebbero usare librerie come TensorFlow o Theano per il riepilogo del testo e l'estrazione delle parole chiave. È passata circa una settimana da quando ho iniziato a sperimentare le reti neurali e sono davvero entusiasta di vedere come le prestazioni di queste librerie si confrontano con i miei precedenti approcci a questo problema.

In particolare, sto cercando alcuni documenti e progetti github interessanti relativi al riassunto del testo usando questi framework. Qualcuno può fornirmi alcuni riferimenti?

Risposte:


15

Il blog di ricerca di Google dovrebbe essere utile nel contesto di TensorFlow .

Nell'articolo precedente, c'è un riferimento al set di dati Gigaword in inglese annotato che viene regolarmente utilizzato per il riepilogo del testo.

L'articolo del 2014 di Sutskever et al intitolato Sequence to Sequence Learning with Neural Networks potrebbe essere un inizio significativo nel tuo viaggio in quanto si scopre che per testi più brevi, il riepilogo può essere appreso end-to-end con una tecnica di deep learning.

Infine, ecco un ottimo repository Github che mostra il riepilogo del testo mentre fa uso di TensorFlow.


16

Questa è un'area di ricerca aperta e dipende certamente dal modo in cui si inquadra il problema. Se stai parlando del riepilogo di più documenti, il problema è leggermente diverso rispetto a quello del sommario di un singolo documento.

Vale la pena di rivedere brevemente la letteratura.

Il collegamento fornito da u / Society Of Data Scientists è eccezionale ed è utile per il compito di riassunto astrattivo in un singolo documento. C'è anche del lavoro svolto su riassunti estrattivi , che identifica frasi importanti da estrarre.

Rush et. al ha un bel documento sulla sintesi astrattiva con attenzione , che si basa sull'apprendimento profondo.

Per un riepilogo esaustivo, potresti usare un LSTM per costruire il tuo classificatore e utilizzare le librerie standard TensorFlow / Torch ma non sembrano esserci pubblicazioni sull'uso del deep learning per questo approccio.

Ecco alcuni repository GitHub aggiuntivi:


Grazie @franciscojavierarceo, esaminerò i documenti sopra citati.
shanky_thebearer,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.