Software Scan-to-PDF per Linux?

Ho un flusso di lavoro in base al quale eseguo la scansione di documenti cartacei in PDF ricercabili utilizzando uno scanner per documenti Fujitsu ScanSnap S500 . Non sono un grande fan del software in bundle, ma è semplicissimo da usare: posiziona una risma di carta in alto, premi il pulsante verde ed esce un PDF ricercabile.

Ora, vorrei fare qualcosa di simile su Linux (Ubuntu 10.10). Lo scanner è supportato e pronto all'uso.

Ho visto gscan2pdfe XSane:

XSane sembra potente, ma non proprio adatto come soluzione di flusso di lavoro;
gscan2pdf è un po 'più vicino all'ideale "premi il pulsante, ottieni il PDF", ma non è ancora al 100%.

Qualche altro software che puoi consigliare (gratuitamente o altrimenti)?

linux pdf scanning

— NPE
fonte

uso pdf-cups, ma è un'immagine non ricercabile testo

— RobotHumans

Cosa c'è di "non al 100%" con gscan2pdf?

— digitxp

@digitxp Non volevo ingombrare la domanda con un elenco di problemi, simpatie e antipatie per qualsiasi prodotto. Tuttavia, dal momento che mi chiedi, gscan2pdfho avuto strani manufatti con il 'unpaper', l'OCR era per lo più inutilizzabile (alcuni motori meglio di altri) e nel complesso non era così snello come la soluzione originale. Comunque, l'essenza della mia domanda è vedere cos'altro c'è là fuori in modo che io possa provare varie soluzioni e vedere cosa funziona meglio per me.

— NPE,

@digitxp Ho appena riletto il mio commento precedente e sembra piuttosto negativo. Non era questa l'intenzione. gscan2pdfè in realtà abbastanza vicino a quello che sto cercando, ma ci sono aree in cui è purtroppo carente rispetto alla soluzione originale.

— NPE,

Ecco alcune cose che ho trovato durante le ricerche all'inizio di quest'anno. Siamo spiacenti, non posso pubblicare più di un collegamento ipertestuale a causa della mia valutazione limitata, quindi dovrai collegarti a Google per i collegamenti.

gscan2pdf

Un ottimo sistema di interfaccia grafica che può utilizzare vari motori OCR per il backend. Questo probabilmente incontrerà la tua soluzione one-touch (e digitxp l'ha già menzionata).

Motore OCR Tesseract

Può essere usato con gscan2pdf.

http://www.linuxjournal.com/article/9676

OCRopus

Non sono andato molto lontano con Ocropus poiché non riconosceva il testo senza un lungo addestramento. Probabilmente sarebbe davvero buono per i libri, ma non ha funzionato bene per me con fatture e simili. YMMV.

Cuneiforme

Ho avuto il miglior successo con Cuneiform ed è stato in grado di creare PDF ricercabili tramite comandi di scripting simili al seguente flusso di lavoro:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html

Sarà inoltre necessario installare il pacchetto esattaimage.

Vari progetti open source per l'OCR di PDF usano Cuniform e hocr2pdf :

WatchOCR
Archivista

Fammi sapere cosa scopri!

— Eric Holmberg
fonte