Tesseract
A partire dal 2018, il miglior software OCR open source disponibile è Tesseract 4 (beta) con il suo nuovo modello OCR di rete neurale LSTM . Le sue prestazioni OCR sono molto migliori rispetto al precedente modello OCR utilizzato nella versione 3.
Esempio (produrre un file PDF output.pdf
con un livello di testo per un documento tedesco scansionato):
$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf
Stampa il testo riconosciuto su stdout:
$ tesseract --oem 1 -l deu page page-0001.png stdout
Elenca le lingue installate:
$ tesseract --list-langs
Il supporto per molte lingue / script è disponibile sotto forma di set di dati addestrati scaricabili , ad esempio esiste anche un set di dati per Fraktur.
Con il nuovo modello LSTM, Tesseract prende ispirazione dal progetto di ricerca OCRopus .
La versione 3 di Tesseract ha prestazioni relativamente scarse anche con immagini di input di buona qualità, cioè spesso rileva falsamente singoli caratteri nei pixel di polvere (al di fuori di qualsiasi contesto testuale) e introduce facilmente errori di singoli caratteri in parole ben note.
Cuneiforme
Le prestazioni dell'OCR cuneiforme non sono poi così male, ma non sono attivamente mantenute (ultima versione nel 2011, versione 1.1) e si bloccano facilmente e hanno alcuni altri problemi:
È possibile disabilitare l'algoritmo di layout in questo modo:
$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001
( -l
specifica la lingua del documento di origine)
ocrad
$ ocrad -F utf8 image-0001
Il testo viene stampato per impostazione predefinita su stdout.
In un documento commerciale, mancava una parola sottolineata, dove cuneiforme / tesseract / gocr no.
gocr
$ gocr image-0001
Il testo viene stampato per impostazione predefinita su stdout.
Hardware
Sane ha un ottimo supporto per molti scanner di alimentazione automatica dei documenti (ADF), ad esempio quelli Avision e Fujitsu .
Incluso con Sane è il scanimage
programma da riga di comando che puoi usare per costruire pipeline di scansione con script (vedi ad esempio il mio adf2pdf.py
script).