Ho un numero di documenti scansionati in pdf e voglio poterli cercare. Come posso fare ciò?
Fondamentalmente devo OCR il pdf e poi fondere il testo estratto in un nuovo pdf. Ho provato senza successo una serie di soluzioni diverse (comprese quelle che si trovano nell'aggiunta di informazioni OCR a un PDF ).
- pdfocr (che mi dà questo problema: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (di cui il centro software dice che è un pacchetto scadente e non dovrei installarlo)
- OCRfeeder (nel centro software) esporta in modo gradevole, ma non reagisce quando si esporta in pdf.
- Gscan2pdf esporta un'immagine tutta nera (ma ricercabile) come riportato in questa discussione .
- Non credo che il visualizzatore Pdfxchange possa gestire l'OCR al volo su file di oltre 500 pagine.
Esiste un pacchetto software di cui non sono a conoscenza? O una sceneggiatura che fa questo?
pdf2searchablepdf
. Si affida tesseract
. Funziona bene. Super facile da usare. Vedere qui. askubuntu.com/a/1187881/327339