Come estrarre testo da pdf in script su Linux?

23

Su Linux - Come estrarre il testo da un testo .pdfin cui il testo è veramente testo, non un'immagine acquisita? Voglio qualcosa che posso usare dalla riga di comando / in uno script, non in modo interattivo. (Non voglio convertirmi in .tife utilizzare OCR - il testo è già disponibile nel .pdffile, quindi perché introdurre inesattezze da OCR imperfetto?)

linux pdf script export

— RobM
fonte

domanda simile su askubuntu

— Trevor Boyd Smith

Risposte:

25

pdftotext che viene fornito con poppler proverà ad estrarre qualsiasi testo trovato nel PDF.

— Ignacio Vazquez-Abrams
fonte

1

Grazie per la tua rapida risposta, Ignacio! Stavo già provando pdftotext che arriva con w xpdf (da foolabs.com) - la tua risposta mi ha spinto a dare un'altra occhiata, e l'ho fatto funzionare. Poppler sembra essersi evoluto da xpdf, quindi darò un'occhiata anche a quello. Grazie ancora!

— RobM,

9

La risposta di Ignacio va bene. In effetti, sarebbe la prima cosa sulla mia lista. Bene, questo e forse suggerire lo pdftohtmlstrumento che viene fornito anche con poppler, combinato con pdfreflow se vuoi provare a riassemblare il testo in paragrafi, ecc. (Naturalmente, questo ti darà un output HTML, ma convertire HTML in testo semplice può essere fatto in molti modi.)

Ecco alcune altre opzioni.

Lo ebook-convertstrumento da riga di comando di Calibre , che può convertire .PDF in testo semplice (o RTF o un numero di formati di ebook, come ePub, ecc.)

pdftxtextractda Podofo

Abiword può essere chiamato dalla riga di comando per convertire tra tutti i formati da cui può immettere / esportare e, con il plug-in di importazione appropriato, questo include PDF:

abiword --to=txt file.pdf

(In tutta onestà, penso che sia AbiWord che Calibre utilizzino le librerie poppler, ma non sono positivo.)

— Frabjous
fonte

Grazie frabjous! In questo caso, sto solo estraendo il testo in modo da poter cercare stringhe specifiche (nomi dei fornitori, numeri di conto) e modelli (numeri di fattura e date), quindi non è necessario riformattarlo o visualizzarlo nuovamente. Apprezzo la conferma e le alternative - e sono sicuro che lo faranno anche gli altri! - Rob

— RobM,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.

Licensed under cc by-sa 3.0 with attribution required.