controllare se il file EPS / PDF contiene immagini vettoriali

Ho bisogno di convertire i file PDF in EPS .. Poi ho bisogno di rimuovere tutto il testo e le immagini .. Finora funziona

pdftocairo -f 1 -l 1 -eps test.pdf - | sed '/BT/,/ET/ d' | sed '/^8 dict dup begin$/,/^Q$/ c Q' > no_text_and_images.eps

Ma come verificare se il file EPS contiene anche il vettore? Ho bisogno di fare qualche OCR sull'output - ma solo se il vettore è presente nel file .. Se contiene solo testo e immagini non voglio usare le risorse per eseguirlo attraverso un processo OCR

File di esempio: http://docdro.id/yJZTGBt

— clarkk
fonte

Ho un'idea, ma dovrei provarlo. Hai un campione di un documento che contiene pagine che contengono le varie permutazioni di {has, does not} {vector, text, image}?

— hackerb9

A proposito, potresti voler cambiare il titolo da EPS a PDF poiché è ciò che desideri realmente. (E la soluzione potrebbe essere più semplice da un PDF poiché ci sono più strumenti).

— hackerb9

@ hackerb9, scusa non ho visto i tuoi commenti .. ho aggiunto un link ad un file pdf di esempio :)

— clarkk

Puoi usare ImageMagick. L'opzione "-trim" ritaglia un'immagine il più piccola possibile e ti dirà se l'immagine è completamente vuota:

$ convert -trim no_text_images.eps foo.jpg
convert-im6.q16: geometry does not contain image [...]

Perché il convert il comando non restituisce un codice di errore per questo avvertimento, lo script della shell avrà bisogno di grep lo stderr.

if ! convert -trim no_text_images.eps foo.png 2>&1 |
     grep 'does not contain image'; then
    [ there's an image, so process it ]
else
    [ there's no image ]
fi

Tuttavia, ora che vedo cosa stai lavorando, potrei avere una soluzione più semplice per te. Perché non provare a usare ocrmypdf? Appena sudo apt install ocrmypdf per installarlo sulla tua casella Debian.

L'ho eseguito sul PDF che mi hai dato e, anche se ho il mio tesseract impostato in inglese, ha ottenuto un rendering ragionevole del vettore che si ha nella parte superiore del modulo:

$ ocrmypdf  --force-ocr  --oversample 150  084.pdf  foo.pdf
$ pdftotext foo.pdf -  |  less
Sigurd
Otto M¢nsteds

Va]

Muller Vinhandel

A/S

Aalbors SV- Tlf. 98 18 50 99- E-mail: vin@smv.dk- www. smv. dk
53 92 79 12- Nordjyske Bank 7450- 2038354

2- 9200

CVR

nr.

Import, salg as distribution if Vin cg spiritus
Eneiurhandler i Danmark af

udsIgte vine fra hale verden.

— hackerb9
fonte