Sto usando Tesseract come mezzo per convertire in testo i documenti di testo stampati catturati dalla fotocamera del mio cellulare. I risultati non sono eccezionali. La qualità dell'immagine è molto buona, molto più chiara di un fax, ma sembra che sia molto difficile identificare i caratteri.
Ho anche provato a imitare uno di questi documenti in un editor di testo, a prendere uno screenshot della finestra e a farlo scorrere attraverso Tesseract ei risultati sono solo marginalmente migliori.
Questo mi porta a credere che probabilmente c'è un font ottimale per Tesseract. Ho cercato un po 'su Google e ho trovato OCR-A, ma a quanto pare richiede una licenza. Poi sono incappato in OCR-A alternativo su SourceFourge, ma non sembra molto meglio di Arial o Courier New.
C'è un font che funziona meglio con Tesseract o devo fare qualcos'altro per aumentare la precisione del riconoscimento dei caratteri?