Sto cercando uno strumento di script offline che rende ricercabile un file PDF esistente eseguendo OCR su di esso, sostituendo il file originale non ricercabile con la versione ricercabile e può essere eseguito incustodito.
Ad esempio, www.pdfscannerapp.com - fa esattamente quello di cui ho bisogno, ma è solo la GUI - non utilizzabile tramite script.
Sono consapevole che Evernote rende ricercabili i file PDF, ma rimangono ricercabili solo all'interno di Evernote.
Non sto cercando un OCR perfetto, anche un OCR moderatamente accettabile va bene, ma preferirei una piccola utility piuttosto che un pacchetto software ingombrante.
(Sono a conoscenza di una domanda simile, ma diversa su AD: ricerca di software per la scansione o la conversione in PDF ricercabile e firmabile - tuttavia, non ho bisogno di firmare o compilare PDF e il mio requisito è che la soluzione sia utilizzabile tramite script)
MODIFICARE:
1) Diverse utility consentono l'estrazione strutturata del testo, tuttavia per poter essere estratto, il testo deve essere presente; Mi riferisco principalmente ai PDF che sono bitmap incorporate, come nel caso dei PDF semplici generati dagli scanner.
2) Non sto necessariamente cercando una soluzione gratuita e sarei più che felice di pagare per una buona utility che fa proprio quello di cui ho bisogno, ma non cerco applicazioni ingombranti con un milione di funzionalità che includono una funzionalità OCR ma il cui costo non giustifica l'acquisto di loro solo per la funzionalità OCR.
3) Come detto sopra, non sto cercando un OCR perfetto, ma solo un OCR moderatamente accettabile. Sfortunatamente, nella mia esperienza, tesseract è davvero al di sotto di tale soglia. Definisco "moderatamente accettabile" un OCR che può, ad esempio, OCR una bolletta in modo che almeno il numero di conto (numero cliente) sia riconosciuto correttamente.
EDIT: "scriptable" o "automatable", cioè può essere attivato automaticamente e funzionare incustodito senza alcun input umano.