Esiste una sorta di convertitore da PDF a testo?


21

Ho bisogno di file PDF per il testo, così posso cercarli alla rinfusa dalla riga di comando. Esiste un convertitore per Ubuntu, OBSD o una distribuzione simile?

Forse post correlato, OCR con Ubuntu qui .



Se si tratta di un PDF "reale" (fatto da testo, ecc.) Pdftotext è la soluzione migliore. Se è un'immagine, la tua scommessa migliore è qualcosa di OCR.
vonbrand,

1
Uso sempre pdftotext= pdfcat.
isomorfismi

Risposte:


22

Hai molte opzioni!

pdftotextda poppler è già stato menzionato.

C'è un programma Haskell chiamatopdf2line che funziona bene.

calibro 's ebook-convertprogramma di comando (o calibro stesso) è un'altra opzione; può convertire i PDF in testo semplice o in altri formati di ebook (RTF, ePub), a mio avviso genera risultati migliori rispetto a pdftotext, sebbene sia notevolmente più lento.

ebook-convert file.pdf file.txt

AbiWord può convertire tra tutti i formati che conosce dalla riga di comando e almeno facoltativamente ha un plug-in di importazione PDF:

abiword --to=txt file.pdf

Ancora un'altra opzione è podofotextextractdalla libreria di strumenti PDF di podofo. Non ci ho davvero provato.

Se combini i due strumenti di Ghostscript pdf2pse ps2asciihai ancora un'altra opzione.

Posso davvero pensare ad alcuni altri metodi, ma per ora lo lascerò a quello. ;)


Calibre's ebook-convert ... hai visto cosa fa alle legature? bleargh. diciamo così: non è un programma molto efficace. pdftotext è molto più fedele. non ho mai scoperto errori nel suo output.
ixtmixilix,

1
Puoi usarne meno per visualizzare file PDF come testo. Invoca un preprocessore, ovvero lesspipe, per invocare pdftotext o strumenti simili.
Daniel Näslund,

pdftotextdà risultati più precisi di ebook-converted è molto veloce. ebook-convertè lento.
Amit Patel,

pdftotextcon -layoutopzione rocce! calibrerichiede più di 600mb per l'installazione! È pazzesco)
Stalinko,

9

Puoi convertire i PDF in testo dalla riga di comando con pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspacchetto).

Puoi usare Recoll (Ubuntu: recoll ; OpenBSD: nessuna porta, ma ce n'è una per FreeBSD .) Per cercare all'interno di vari tipi di documenti di testo formattati, incluso PDF. C'è una GUI e crea automaticamente un indice sotto il cofano. Usa pdftotextper convertire PDF in testo.

Acrobat Reader (almeno la versione 9 su Linux) ha una capacità di ricerca multi-file limitata (è possibile cercare in tutti i file in una directory).



-1

gPDFText converte il contenuto PDF degli e-book in testo ASCII, riformattato per paragrafi lunghi, funziona per me e ha un'interfaccia grafica.


3
Ciao e benvenuto nel sito. Ci piace che le risposte siano un po 'più complete qui. Ad esempio, è possibile aggiungere dove è gPDFTextpossibile ottenere, come può essere installato e come verrà utilizzato per rispondere alla domanda del PO.
terdon
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.