Carattere ottimale per Tesseract? (in particolare il wrapper .NET)

Sto usando Tesseract come mezzo per convertire in testo i documenti di testo stampati catturati dalla fotocamera del mio cellulare. I risultati non sono eccezionali. La qualità dell'immagine è molto buona, molto più chiara di un fax, ma sembra che sia molto difficile identificare i caratteri.

Ho anche provato a imitare uno di questi documenti in un editor di testo, a prendere uno screenshot della finestra e a farlo scorrere attraverso Tesseract ei risultati sono solo marginalmente migliori.

Questo mi porta a credere che probabilmente c'è un font ottimale per Tesseract. Ho cercato un po 'su Google e ho trovato OCR-A, ma a quanto pare richiede una licenza. Poi sono incappato in OCR-A alternativo su SourceFourge, ma non sembra molto meglio di Arial o Courier New.

C'è un font che funziona meglio con Tesseract o devo fare qualcos'altro per aumentare la precisione del riconoscimento dei caratteri?

tesseract-ocr

— user613051
fonte

Hai caricato il dizionario corretto, giusto?

— Daniel B

@DanielB Buon punto. In realtà sto usando questo come un mezzo per convertire file di dati relativamente piccoli in base64 e quindi stamparli su carta per il backup. È una specie della stessa idea dietro a Brossura. Qualche idea su come creare il mio dizionario personalizzato? Potrei provare a creare un dizionario di ogni possibile stringa base64 e vedere se questo aiuta con la precisione.

— user613051

Perché non stampare anche codici QR accanto al testo ??

— Máté Juhász

@ MátéJuhász Ho preso in considerazione la possibilità di generare codici QR a causa della quantità di dati che possono contenere, ma non sono riuscito a cercare applicazioni per il lettore di codice QR che non richiedessero tutti i permessi noti all'umanità

— user613051

La scelta migliore è prepararla per qualsiasi font che stai utilizzando.

Non voglio fingere che questo sia un processo facile, non lo è, ma dovrebbe funzionare meglio. Inoltre, la maggior parte dei programmi OCR favorisce 300 dpi o 600 dpi, quindi è necessario eseguire l'upscaling.

Il Tesseract Github Wiki ha delle buone risorse su Allenamento Tesseract .

— cybernard
fonte