Ecco un modo, che richiederebbe alcuni strumenti non così comuni:
- ocrodjvu
- pdfbeads , che ha i suoi requisiti che possono essere trovati da Google
Possiamo usare il djvu2hocr
comando (dal ocrodjvu
pacchetto) per estrarre il livello di testo nascosto dal file DjVu (non fa alcun OCR o simile, ma estrae solo il livello di testo con la geometria), cioè:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
l'intervento corregge i nomi delle classi nell'output hOCR (che è solo un semplice file HTML)
Ora estraiamo la pagina DjVu in formato TIFF con:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
in modo che finiamo con questi file nella cartella di lavoro:
sample.djvu
pg10.html
pg10.tif
È qui che pdfbeads
entra in gioco e eseguiamo semplicemente:
pdfbeads -o pg10.pdf
quindi questo elegante programma si occupa di tutto ciò che si trova all'interno di questa cartella (file HTML e TIFF con lo stesso nome di base) e produce file PDF di output con alcuni sottoprodotti:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
che è identico al file di input DjVu e ha un livello di testo all'interno:
Riepilogo dei commenti:
I lunghi commenti che seguono illustrano la rappresentazione di immagini più piccole dalla pagina del documento DjVu come oggetti separati, il che non è facilmente possibile perché la pagina del documento DjVu è essa stessa una singola immagine con un livello di testo opzionale, senza "informazioni" su immagini più piccole come oggetti separati. Se il documento DjVu ha immagini a colori, verranno solitamente posizionate sul livello di sfondo; in questo caso l'utente può trarre vantaggio da strumenti come ddjvu
(estrarre solo il livello di sfondo) e imagemagick
(ritaglio automatico) per produrre solo immagini anziché intera tela, ma non può essere automatizzato per la creazione di output PDF
Un altro approccio più sano, ma più lento è l'uso dei normali strumenti della GUI OCR. gscan2pdf
(> 1.0) è suggerito come possibile candidato per PC Linux