Ho bisogno di file PDF per il testo, così posso cercarli alla rinfusa dalla riga di comando. Esiste un convertitore per Ubuntu, OBSD o una distribuzione simile?
Forse post correlato, OCR con Ubuntu qui .
pdftotext= pdfcat.
Ho bisogno di file PDF per il testo, così posso cercarli alla rinfusa dalla riga di comando. Esiste un convertitore per Ubuntu, OBSD o una distribuzione simile?
Forse post correlato, OCR con Ubuntu qui .
pdftotext= pdfcat.
Risposte:
Hai molte opzioni!
pdftotextda poppler è già stato menzionato.
C'è un programma Haskell chiamatopdf2line che funziona bene.
calibro 's ebook-convertprogramma di comando (o calibro stesso) è un'altra opzione; può convertire i PDF in testo semplice o in altri formati di ebook (RTF, ePub), a mio avviso genera risultati migliori rispetto a pdftotext, sebbene sia notevolmente più lento.
ebook-convert file.pdf file.txt
AbiWord può convertire tra tutti i formati che conosce dalla riga di comando e almeno facoltativamente ha un plug-in di importazione PDF:
abiword --to=txt file.pdf
Ancora un'altra opzione è podofotextextractdalla libreria di strumenti PDF di podofo. Non ci ho davvero provato.
Se combini i due strumenti di Ghostscript pdf2pse ps2asciihai ancora un'altra opzione.
Posso davvero pensare ad alcuni altri metodi, ma per ora lo lascerò a quello. ;)
pdftotextdà risultati più precisi di ebook-converted è molto veloce. ebook-convertè lento.
pdftotextcon -layoutopzione rocce! calibrerichiede più di 600mb per l'installazione! È pazzesco)
Puoi convertire i PDF in testo dalla riga di comando con pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspacchetto).
Puoi usare Recoll
(Ubuntu: recoll ; OpenBSD: nessuna porta, ma ce n'è una per FreeBSD .) Per cercare all'interno di vari tipi di documenti di testo formattati, incluso PDF. C'è una GUI e crea automaticamente un indice sotto il cofano. Usa pdftotextper convertire PDF in testo.
Acrobat Reader (almeno la versione 9 su Linux) ha una capacità di ricerca multi-file limitata (è possibile cercare in tutti i file in una directory).
pdftotext è probabilmente quello che stai cercando: http://en.wikipedia.org/wiki/Pdftotext a meno che il testo che desideri estrarre non sia realmente in una forma grafica, che non è così comune con i documenti pdf.
gPDFText converte il contenuto PDF degli e-book in testo ASCII, riformattato per paragrafi lunghi, funziona per me e ha un'interfaccia grafica.
gPDFTextpossibile ottenere, come può essere installato e come verrà utilizzato per rispondere alla domanda del PO.