Esistono API per la scansione dell'estratto di carta?


13

Se ho un elenco molto lungo di nomi di documenti, come posso ottenere abstract di questi documenti da Internet o da qualsiasi database?

I nomi dei documenti sono come "Valutazione dell'utilità nel Web Mining per il dominio della sanità pubblica".

Qualcuno conosce qualche API che può darmi una soluzione? Ho provato a eseguire la scansione di google scholar, tuttavia, Google ha bloccato il mio crawler.


2
Dubito che ci sia un'API generale per questo. Puoi provare a eseguire la scansione di vari servizi come Academia.edu, i siti degli editori e così via. Tuttavia, sarebbe più semplice creare prima un database locale di documenti e poi sperimentare con l'estrazione degli abstract.
Wojciech Walczak,

Grazie per la tua risposta! Ho già creato un database locale per questo. Il problema della ricerca per indicizzazione da vari servizi è che devo creare regole di analisi per ciascun sito Web.
Alex Gao,

Quindi, che ne dici di convertire PDF in TXT e quindi estrarre gli abstract con espressioni regolari?
Wojciech Walczak,

grazie! Tuttavia, il contratto afferma che non è consentito il download massiccio di documenti. Questo crea mal di testa.
Alex Gao,

2
Penso che questo link di risposta di overflow dello stack offra la migliore risposta che posso ottenere. Forse le persone che riscontrano questo problema potrebbero anche dare un'occhiata a questa pagina.
Alex Gao,

Risposte:


8

Cerca su:

Se ottieni una singola corrispondenza esatta del titolo, probabilmente hai trovato l'articolo giusto e puoi compilare il resto delle informazioni da lì. Entrambi offrono link per il download e output in stile bibtex. Quello che vorresti probabilmente fare per ottenere metadati perfetti è scaricare e analizzare il pdf (se presente) e cercare un identificatore in stile DOI.

Per favore sii gentile e limita le tue richieste se lo fai.


5

arXiv ha un'API e un download di massa, ma se vuoi qualcosa per le riviste a pagamento, sarà difficile trovarti senza pagare un indicizzatore come pubmed o elsevier o simili.


1
molte grazie. Tuttavia, arXiv fornisce i documenti di cui ho bisogno.
Alex Gao,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.