Analisi automatica del testo della citazione nei riferimenti accademici


18

Esiste un software (o pseudo-codice) in grado di scansionare automaticamente un pezzo di testo (incollato nello strumento o leggere da un .doc / .pdf) e identificare i dati di citazione usando formati standard? I dati verrebbero quindi suddivisi nei suoi campi costitutivi ed esportati in XML, CSV o altri formati di dati strutturati. Ho esaminato cb2Bib ma è stato in grado di estrarre l'anno solo da riferimenti in stile Harvard, il che è insufficiente.


Vuoi scansionare il testo stesso o solo la sezione dei riferimenti?
InnaM,

Solo i riferimenti: sarebbe probabilmente un documento contenente pubblicazioni personali.
Alistair Knock,

Non sono sicuro se questo potrebbe essere necessario, ma puoi provare questo refhive.com
Mostafa Elmoghazi,

Risposte:


4

Dai un'occhiata a questo elenco di Citation Parser che possono generare XML dal testo di input:

http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (in modalità di manutenzione dal 1 agosto 2012)
http: // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10

Con freecite puoi usare un curlcomando per inviare citazioni come segue (in PHP):

$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );

Un'altra opzione è github.com/inspirehep/refextract . Non è basato su ML ma ha funzionato molto bene nei miei test.
Josir,

3

Al momento (2017) il progetto Open Source più attivo che implementa questo sembra essere Anystyle Parser (ultima versione 07-2016). Può essere utilizzato tramite un'interfaccia Web, API o scaricato come RubyGem.

Sul loro sito web menzionano esplicitamente che l'implementazione è ispirata a ParsCit (ultima versione 2013?) E FreeCite (ultimo commit 2009).

Inoltre forma il loro sito Web:

AnyStyle Parser utilizza una potente euristica di apprendimento automatico basata su campi casuali condizionali che possono essere addestrati da chiunque usando il nostro editor integrato.

Questa è una funzionalità davvero interessante, che la rende l'implementazione più interessante (imho). La formazione sembra essere piuttosto semplice, come spiegato nella documentazione dell'API . Fornisci solo alcuni risultati corretti manualmente ed esegui il Anystyle.parser.traincomando. Non sono sicuro che ParsCit e FreeCite supportino anche questo, ma se non lo fanno, questa mi sembra un'enorme differenza di funzionalità.


Ad eccezione di Anystyle Parser, sono tutti menzionati nella risposta attualmente più votata. Cosa li distingue davvero? Quali sarebbero i vantaggi o gli svantaggi data la domanda originale?
Seth

Ah, davvero. Modificherò e migliorerò la mia risposta. Grazie per averlo sottolineato.
Wouter,

Sembra che sia morto ora.
esperto

1
@Brandon: ho pubblicato un HOWTO qui: github.com/inukshuk/wapiti-ruby/issues/3
Wouter,

1
Sembra fantastico, grazie! Come qualcuno che non ha mai toccato il rubino, sarà davvero molto utile.
Brandon,

2

Prova uno strumento come Regex Buddy o Expresso .

Se non sei un programmatore, le espressioni regolari possono essere un po 'intimidatorie, ma in realtà non sono così difficili, soprattutto con uno strumento decente come uno dei precedenti.

Ecco un esempio di qualcuno che usa le espressioni regolari per estrarre citazioni:

Citando l'analisi dell'espressione regolare


1

Mendeley dovrebbe essere in grado di farlo. Può importare PDF e quindi esportare i metadati in BibTeX, RIS e EndNote XML. È gratuito da scaricare ed è multipiattaforma.

Modifica: l'ho provato su alcuni documenti. L'importazione PDF sembra funzionare bene per i riferimenti formattati correttamente. Per un documento che ho creato usando LaTeX, tutti i riferimenti con l'autore nel formato "Smith, J." o "J. Smith", ecc., sono stati importati bene. Se l'autore è una società (una sola parola) o il riferimento è incompleto, non funziona altrettanto. I riferimenti estratti possono essere facilmente modificati ed esportati in BibTeX, ecc.


2
"Questa funzione è stata rimossa in Mendeley 0.9.7 perché consumava una discreta quantità di risorse (lato client e server) senza fornire un valore sufficiente. In futuro prevediamo di reintrodurla in una forma migliorata." ...... feedback.mendeley.com/forums/4941-mendeley-feedback/suggestions/…
iceman

1

Ho visto un programma di Westlaw farlo per citazioni legali, ma probabilmente non è quello che stai cercando. Reference Manager potrebbe fare qualcosa del genere per i formati accademici, ma non l'ho mai usato.



0

Zotero è un plugin per Firefox che lo fa per i contenuti web. Non sono sicuro se esiste uno strumento simile per documenti / pdf


1
So che questo non è esattamente ciò che Zotero è progettato per fare, ma se hai puntato Firefox su un file di testo o html con i dati rilevanti, Zotero potrebbe riconoscere i riferimenti e quindi potresti aggiungerlo alla libreria Zotero ed esportare il intera libreria in qualunque formato ti piaccia (so che Zotero supporta un sacco di formati). Questo sarebbe doloroso per un gran numero di file però.
nedned,

Non vedo come Zotero faccia quello che chiede l'OP. L'ho installato, ma non sembra esserci alcuna opzione per analizzare un riferimento.
Rikki,

Zotero analizza le citazioni da siti Web appositamente codificati, non da un testo normale.
Ochado,

0

Questo probabilmente appartiene più come commento a @Abhinav, ma zotero gestisce sicuramente solo i dati strutturati, come troverai qui descritto:

http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools

Un trucco interessante potrebbe essere quello di provare a scrivere un programma che utilizza ogni citazione come query di ricerca nel database preferito, quindi utilizza qualcosa come zotero per generare le informazioni di riferimento. Puoi anche scaricare informazioni strutturate da servizi come citeUlike. Fammi sapere se finisci per fare qualcosa del genere! (mettilo su github se lo fai;).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.