Filtraggio di una sorta di immagine "semi-tonica" per l'elaborazione OCR

10

Ho un materiale PDF digitalizzato a cui voglio aggiungere un livello di testo nascosto, in modo da poter indicizzare il documento. Ho usato il dispositivo di output tiff in bianco e nero di ghostscript (tiffg4) per estrarre pagine come immagini tiff, ed ecco un esempio di come sono:

inserisci qui la descrizione dell'immagine

L'elaborazione di questa immagine con tesseract non fornisce buoni risultati.
La modifica dell'output di ghostscript DPI (600, 300, 150, 96) mostra che l'immagine a 96 DPI offre i migliori risultati da tesseract ma non è ancora soddisfacente.

Ora ho pensato di chiedere consiglio quale filtro avrebbe migliorato questa immagine per l'elaborazione OCR.

Potrei usare imagemagick, o numpy / scipy / ndimage

image-processing ocr

— zetah
fonte

9

Ciò di cui hai veramente bisogno è probabilmente un'operazione morfologica come la dilatazione seguita dall'erosione. Questo è chiamato come operazione di chiusura . Potrebbe essere nel tuo caso - solo la dilatazione stessa potrebbe essere buona.

In precedenza era stata posta una domanda simile, che può aiutare con altri aspetti.

conversione immagine monocromatica (1 bit in bianco e nero)

Come ricostruire il testo da un'immagine usando solo operazioni morfologiche?

— Dipan Mehta
fonte

2

puoi rimuoverlo usando un filtro passa-basso. ciò viene fatto nello spazio delle frequenze o semplicemente prende la (differenza di) gaussiana dell'immagine.

— Christoph Rackwitz
fonte