Software Scan-to-PDF per Linux?


18

Ho un flusso di lavoro in base al quale eseguo la scansione di documenti cartacei in PDF ricercabili utilizzando uno scanner per documenti Fujitsu ScanSnap S500 . Non sono un grande fan del software in bundle, ma è semplicissimo da usare: posiziona una risma di carta in alto, premi il pulsante verde ed esce un PDF ricercabile.

Ora, vorrei fare qualcosa di simile su Linux (Ubuntu 10.10). Lo scanner è supportato e pronto all'uso.

Ho visto gscan2pdfe XSane:

  • XSane sembra potente, ma non proprio adatto come soluzione di flusso di lavoro;
  • gscan2pdf è un po 'più vicino all'ideale "premi il pulsante, ottieni il PDF", ma non è ancora al 100%.

Qualche altro software che puoi consigliare (gratuitamente o altrimenti)?


uso pdf-cups, ma è un'immagine non ricercabile testo
RobotHumans

1
Cosa c'è di "non al 100%" con gscan2pdf?
digitxp

@digitxp Non volevo ingombrare la domanda con un elenco di problemi, simpatie e antipatie per qualsiasi prodotto. Tuttavia, dal momento che mi chiedi, gscan2pdfho avuto strani manufatti con il 'unpaper', l'OCR era per lo più inutilizzabile (alcuni motori meglio di altri) e nel complesso non era così snello come la soluzione originale. Comunque, l'essenza della mia domanda è vedere cos'altro c'è là fuori in modo che io possa provare varie soluzioni e vedere cosa funziona meglio per me.
NPE,

@digitxp Ho appena riletto il mio commento precedente e sembra piuttosto negativo. Non era questa l'intenzione. gscan2pdfè in realtà abbastanza vicino a quello che sto cercando, ma ci sono aree in cui è purtroppo carente rispetto alla soluzione originale.
NPE,

Risposte:


18

Ecco alcune cose che ho trovato durante le ricerche all'inizio di quest'anno. Siamo spiacenti, non posso pubblicare più di un collegamento ipertestuale a causa della mia valutazione limitata, quindi dovrai collegarti a Google per i collegamenti.

gscan2pdf

Un ottimo sistema di interfaccia grafica che può utilizzare vari motori OCR per il backend. Questo probabilmente incontrerà la tua soluzione one-touch (e digitxp l'ha già menzionata).

Motore OCR Tesseract

Può essere usato con gscan2pdf.

OCRopus

Non sono andato molto lontano con Ocropus poiché non riconosceva il testo senza un lungo addestramento. Probabilmente sarebbe davvero buono per i libri, ma non ha funzionato bene per me con fatture e simili. YMMV.

Cuneiforme

Ho avuto il miglior successo con Cuneiform ed è stato in grado di creare PDF ricercabili tramite comandi di scripting simili al seguente flusso di lavoro:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

Sarà inoltre necessario installare il pacchetto esattaimage.

Vari progetti open source per l'OCR di PDF usano Cuniform e hocr2pdf :

  • WatchOCR
  • Archivista

Fammi sapere cosa scopri!

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.