Ho un materiale PDF digitalizzato a cui voglio aggiungere un livello di testo nascosto, in modo da poter indicizzare il documento. Ho usato il dispositivo di output tiff in bianco e nero di ghostscript (tiffg4) per estrarre pagine come immagini tiff, ed ecco un esempio di come sono:
L'elaborazione di questa immagine con tesseract non fornisce buoni risultati.
La modifica dell'output di ghostscript DPI (600, 300, 150, 96) mostra che l'immagine a 96 DPI offre i migliori risultati da tesseract ma non è ancora soddisfacente.
Ora ho pensato di chiedere consiglio quale filtro avrebbe migliorato questa immagine per l'elaborazione OCR.
Potrei usare imagemagick, o numpy / scipy / ndimage