Relazione e differenza tra recupero di informazioni ed estrazione di informazioni?


11

Da Wikipedia

Il recupero di informazioni è l'attività di ottenere risorse di informazioni rilevanti per un'esigenza di informazioni da una raccolta di risorse di informazioni. Le ricerche possono essere basate su metadati o su indicizzazione full-text.

Da Wikipedia

L'estrazione delle informazioni (IE) è il compito di estrarre automaticamente informazioni strutturate da documenti non strutturati e / o semistrutturati leggibili meccanicamente. Nella maggior parte dei casi questa attività riguarda l'elaborazione di testi in linguaggio umano mediante l'elaborazione del linguaggio naturale (PNL). Le attività recenti nell'elaborazione di documenti multimediali come l'annotazione automatica e l'estrazione di contenuti da immagini / audio / video potrebbero essere viste come estrazione di informazioni.

Quali sono le relazioni e le differenze tra il recupero delle informazioni e l'estrazione delle informazioni?

Grazie!

Risposte:


9

Il recupero delle informazioni si basa su una query : si specifica quali informazioni sono necessarie e vengono restituite in forma comprensibile.

L'estrazione delle informazioni riguarda la strutturazione di informazioni non strutturate - date alcune fonti, tutte le informazioni (rilevanti) sono strutturate in una forma che sarà facile da elaborare. Questo non sarà necessariamente in una forma comprensibile all'uomo - può essere solo per l'uso di programmi per computer.

Alcune fonti:


7

http://gate.ac.uk/ie/ dà una distinzione molto bella e concisa:

L'estrazione delle informazioni non è il recupero delle informazioni: l'estrazione delle informazioni differisce dalle tecniche tradizionali in quanto non recupera da una raccolta un sottoinsieme di documenti che si spera siano rilevanti per una query, basata sulla ricerca di parole chiave (forse aumentata da un thesaurus). Invece, l'obiettivo è quello di estrarre dai documenti (che possono essere in una varietà di lingue) fatti salienti su tipi di eventi, entità o relazioni prespecificati. Questi fatti vengono quindi generalmente inseriti automaticamente in un database, che può quindi essere utilizzato per analizzare i dati per le tendenze, per fornire un riepilogo del linguaggio naturale o semplicemente per l'accesso online.

Per dirla in modo pittorico:

Il recupero delle informazioni ottiene set di documenti pertinenti:

inserisci qui la descrizione dell'immagine

L'estrazione delle informazioni ricava i fatti dai documenti:

inserisci qui la descrizione dell'immagine


2

Dal punto di vista della modellistica, il recupero delle informazioni è un campo profondo basato su diverse discipline, tra cui statistiche, matematica, linguistica, intelligenza artificiale e ora scienza dei dati. In pratica, questi modelli vengono applicati contro il testo all'interno dei corpora per scoprire modelli nei dati. Non solo i modelli IR si sovrappongono nel loro utilizzo, possono "collaborare" con altri modelli come k-medie o k-vicini modelli più vicini, quindi altri modelli possono essere applicati dal punto di vista della linguistica computazionale come LDA / LDI e modellazione di argomenti Quindi, il gioco finale è una sorta di visualizzazione delle informazioni di questa scoperta - dopo il lavoro di classificazione, raggruppamento e aggregazione. Il recupero delle informazioni può sembrare una disciplina criptica, ma uno sforzo serio, che è molto apprezzato, sta aprendo l'area per una comprensione più profonda di ciascun modello e l'interazione tra i modelli. Cito la serie "Lezioni di sintesi su concetti di informazione, recupero e servizi" come il posto migliore per approfondire una fondazione per IR.

Anche se non separo completamente l'IR e l'estrazione delle informazioni, forse un sottoinsieme di IE, l'estrazione a livello di concetto, applica modelli IR con regole di inferenza basate sull'intelligenza artificiale per estrarre ontologie correlate. La natura grafica di queste relazioni viene migliorata con la modellazione ontologica in OWL e RDF e con database di grafici, che consentono un insieme meno rigoroso o rigoroso di modellizzazione delle relazioni e consentono di emergere più relazioni, anziché essere controllate di per sé. La capacità di accrescere dinamicamente l'estrazione di informazioni mantiene la sua "disciplina" fortemente interessante per i ricercatori.

Sia IR che IE si manifestano nelle nostre "entità del momento" significative - alcuni hanno chiamato "ontologie dinamiche" - alcuni sono Palantir-- abbiamo bisogno di schemi, modelli, simulazioni e visualizzazioni di quelle entità significative per fare affari in il volto del morphing di nuove fonti di informazione e del cambiamento delle informazioni esistenti. Il modello concettuale, relazionale, definitivo, modello e ontologico devono essere flessibili e le loro visualizzazioni uguali. Il forte sollevamento di motori di intelligenza artificiale come Watson nei campi di estrazione delle informazioni e di inferenza ha messo in luce i campi IE e francamente i campi IR. Anche l'ubiquità dell'elaborazione del linguaggio naturale e dell'apprendimento automatico stanno richiamando l'attenzione sui modelli e sui motori IR e IE. L'impatto dei modelli IR sulla ricerca e SEO e sulla modellazione web semantica è uno di quelli "


1

Il recupero delle informazioni riguarda la restituzione delle informazioni rilevanti per una specifica query o un campo di interesse. Si noti che queste informazioni potrebbero anche essere sotto forma di documenti generali, sicuramente un numero sufficiente di motori di ricerca è un esempio notevole di tale compito. Direi che le entità più importanti riconoscibili per il recupero delle informazioni sono l'insieme iniziale di documenti / informazioni e la query che specifica "cosa cercare".

D'altra parte, l' estrazione delle informazioni riguarda più l'estrazione (o inferimento) di conoscenze (o relazioni) generali da una serie di documenti o informazioni. Si noti che qui tutto il contenuto dei documenti potrebbe essere considerato come un intero corpus di dati da cui estrarre la conoscenza. Ovviamente anche per questo caso puoi in qualche modo specificare cosa vuoi estrarre, ma si tratta più di proprietà / relazioni che di argomenti / argomenti specifici. Le proprietà sono più specifiche del dominio, mentre in genere le relazioni coprono scenari più generici.

Ancora una volta, con i motori di ricerca stai chiedendo di ottenere i siti che hanno maggiori probabilità di contenere informazioni su quell'argomento specifico. Questo è un esempio di recupero di informazioni .

Per l' estrazione di informazioni , invece, potresti, ad esempio, chiedere di estrarre tutti i nomi di città o indirizzi e-mail che compaiono in un corpus di documenti. Potresti persino diventare molto più generico, chiedendo semplicemente di estrarre conoscenza. Come puoi vedere, questo è veramente generico, ma può essere realizzato, ad esempio, ottenendo terzine del modulo soggetto-azione-oggetto per ogni frase valida di un testo (questo è più adatto per i testi in linguaggio naturale).

Se ti interessano questi (e altri) argomenti sono spiegati in dettaglio nel capitolo Elaborazione del linguaggio naturale del libro Intelligenza artificiale: un approccio moderno .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.