Ho bisogno di file PDF per il testo, così posso cercarli alla rinfusa dalla riga di comando. Esiste un convertitore per Ubuntu, OBSD o una distribuzione simile?
Forse post correlato, OCR con Ubuntu qui .
pdftotext
= pdfcat
.
Ho bisogno di file PDF per il testo, così posso cercarli alla rinfusa dalla riga di comando. Esiste un convertitore per Ubuntu, OBSD o una distribuzione simile?
Forse post correlato, OCR con Ubuntu qui .
pdftotext
= pdfcat
.
Risposte:
Hai molte opzioni!
pdftotext
da poppler è già stato menzionato.
C'è un programma Haskell chiamatopdf2line
che funziona bene.
calibro 's ebook-convert
programma di comando (o calibro stesso) è un'altra opzione; può convertire i PDF in testo semplice o in altri formati di ebook (RTF, ePub), a mio avviso genera risultati migliori rispetto a pdftotext, sebbene sia notevolmente più lento.
ebook-convert file.pdf file.txt
AbiWord può convertire tra tutti i formati che conosce dalla riga di comando e almeno facoltativamente ha un plug-in di importazione PDF:
abiword --to=txt file.pdf
Ancora un'altra opzione è podofotextextract
dalla libreria di strumenti PDF di podofo. Non ci ho davvero provato.
Se combini i due strumenti di Ghostscript pdf2ps
e ps2ascii
hai ancora un'altra opzione.
Posso davvero pensare ad alcuni altri metodi, ma per ora lo lascerò a quello. ;)
pdftotext
dà risultati più precisi di ebook-convert
ed è molto veloce. ebook-convert
è lento.
pdftotext
con -layout
opzione rocce! calibre
richiede più di 600mb per l'installazione! È pazzesco)
Puoi convertire i PDF in testo dalla riga di comando con pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utils
pacchetto).
Puoi usare Recoll
(Ubuntu: recoll ; OpenBSD: nessuna porta, ma ce n'è una per FreeBSD .) Per cercare all'interno di vari tipi di documenti di testo formattati, incluso PDF. C'è una GUI e crea automaticamente un indice sotto il cofano. Usa pdftotext
per convertire PDF in testo.
Acrobat Reader (almeno la versione 9 su Linux) ha una capacità di ricerca multi-file limitata (è possibile cercare in tutti i file in una directory).
pdftotext è probabilmente quello che stai cercando: http://en.wikipedia.org/wiki/Pdftotext a meno che il testo che desideri estrarre non sia realmente in una forma grafica, che non è così comune con i documenti pdf.
gPDFText converte il contenuto PDF degli e-book in testo ASCII, riformattato per paragrafi lunghi, funziona per me e ha un'interfaccia grafica.
gPDFText
possibile ottenere, come può essere installato e come verrà utilizzato per rispondere alla domanda del PO.