Qualche strumento per automatizzare l'OCR dei file PDF scansionati in modo simile alla funzionalità OCR di Acrobat? [chiuso]

Preferibile open source, ma non necessario.

Ho Adobe Acrobat 8 e mi piace molto la funzione OCR che può essenzialmente mettere un livello invisibile di testo OCR sopra un documento acquisito. Quindi quello che vedi sullo schermo è il documento scansionato originale, ma il risultato è ricercabile.

Quello che sto cercando è un modo per automatizzare questo processo. Al momento ho alcuni script che utilizziamo per elaborare e archiviare i file scansionati e sto cercando qualcosa che posso collegare direttamente a questo processo batch per eseguire l'OCR in un modo simile a quello che posso fare con Acrobat.

Tutti i suggerimenti sono benvenuti, grazie!

pdf document-management ocr

— Boden
fonte

PS: cerco di mantenere le domande dell'utente su superutente. Tuttavia, l'implementazione che deriva da questa domanda vivrà sicuramente sul server in cui ho elaborato la documentazione scansionata ... quindi è stato un errore.

— Boden,

Risposte:

L'ho implementato in un progetto di archiviazione di documenti aziendali. Il file acquisito è un file tif (pagina singola). Quindi utilizzare Cuneiform per creare un file hocr del singolo tif. Quindi utilizzando hocr2pdf per generare il file PDF. Se eseguo più scansioni di pagine, utilizzo gs per combinare i PDF in un unico documento PDF. Funziona davvero bene, l'OCR è abbastanza buono per le nostre esigenze ed è ricercabile in qualsiasi visualizzatore di PDF.

— Xeon
fonte

Interessante. Prima di passare troppo tempo a guardarlo, il PDF risultante è l'immagine della scansione originale con un livello di testo incorporato o è solo testo?

— Boden,

È l'immagine della scansione originale con livello di testo incorporato. Il file hocr è un output di testo con markup html.

— Xeon,

Eccellente. Ho intenzione di provarlo. Se sembra che funzionerà, segnerò la tua risposta come accettata. Grazie!

— Boden,

Grazie ancora. Un po 'una seccatura installare questi due ragazzi, ma funziona. Ho scritto un semplice script per controllare una cartella FTP per i nuovi file .tif su cui gira cuneiform e hocr2pdf, quindi carica i risultati in una libreria di documenti sharpoint usando curl. In questo modo le persone possono archiviare i documenti direttamente dalla fotocopiatrice e gli archivi sono completamente ricercabili. Domanda: sai cosa fa l'opzione "sovrascrivi risoluzione" in hocr2pdf?

— Boden,

Sono felice che stia funzionando per te. Non so che l'argomento -r lo sia.

— Xeon,

Hai visto WatchOCR? È possibile scaricarlo da http://www.watchocr.com È un server OCR gratuito e open source che trasforma i PDF di sole immagini in PDF ricercabili di testo da una cartella controllata o da una condivisione di rete.

— rlangner
fonte

Mi piace il suono della risposta di xeon, anche se OCRopus sembra molto divertente.

— Kara Marfia
fonte

Quando stavo cercando e testando diverse soluzioni. L'ho provato e tesseract-ocr e all'epoca non avevano un buon modo di produrre PDF. Non ho esaminato se hanno quelle caratteristiche ... So che tesseract-ocr lo ha nella loro sequenza temporale ...

— Xeon