Come posso convertire le immagini scansionate come PDF in un file PDF ricercabile? [chiuso]

19

Ho un PDF di un libro digitalizzato.

Sto cercando un software gratuito che eseguirà l'OCR e quindi fornirà un'opzione per salvarlo nuovamente come PDF o documento.

Ce n'è uno?

software-rec pdf ocr

— slhck
fonte

Vuoi dire che vuoi convertire le immagini nel pdf in testo?

— DaveParillo,

sì, ma non voglio un file txt come output. Voglio vedere lo stesso identico pdf ma con un'opzione per premere Ctrl + F e contrassegnare le parole ecc.

avrai difficoltà a convertire questo PDF senza perdere la formattazione e lo stile del testo. devo ancora trovare un software OCR in grado di preservare correttamente un documento dalle immagini scansionate. prepararsi per un po 'di lavoro con gli asini (ad es. correzione di bozze, ecc.) :)

5

Puoi scaricare la versione di prova di 30 giorni di Adobe Acrobat Pro e utilizzare la funzione "Riconoscimento testo OCR" ("Documento> Riconoscimento testo OCR> Riconoscimento testo tramite OCR ..."). Nella finestra di dialogo delle impostazioni, seleziona "Immagine ricercabile" come stile di output. Ciò manterrà l'immagine della pagina ma incorporerà il testo dell'OCR in modo che il documento sia ricercabile e consenta di selezionare, copiare e incollare il testo.

Dopo aver eseguito l'OCR dovrai confermare o correggere le parole che l'OCR non è sicuro sull'uso delle funzioni "Trova sospetti OCR".

— pelms
fonte

Anche se Adobe non è gratuita, è di gran lunga la soluzione OCR più potente in circolazione

— James Healy,

4

Se disponi di un account Google, Google Documenti ora include la funzionalità per caricare un file PDF ed eseguire l'OCR su di esso.

L'ho provato da solo e crea un discreto pugnalato a un PDF ben formattato.

La formattazione è praticamente distrutta ma il testo sembra sopravvivere.

— Richard Lucas
fonte

4

I seguenti prodotti sono stati trovati elencati su Internet, ma non li ho usati.

OCR online

Terminale OCR

Il Terminale OCR è un servizio OCR online che esegue il riconoscimento ottico dei caratteri (OCR) sulle immagini digitalizzate e sui file pdf e le trasforma in documenti modificabili e ricercabili tramite testo.

OCR gratuito

Free-OCR.com è uno strumento OCR (Optical Character Recognition) online gratuito. Puoi usarlo per eseguire l'OCR su qualsiasi immagine che fornisci.
Questo servizio è gratuito, non è necessaria la registrazione. Inoltre non abbiamo bisogno del tuo indirizzo email.
Carica i tuoi file immagine. Free-OCR accetta JPG, GIF, TIFF BMP o PDF ( solo prima pagina ). L'unica limitazione è che le immagini non devono essere più grandi di 2 MB, non più larghe o più alte di 5000 pixel e c'è un limite di 10 upload di immagini all'ora.

Maestro Recognition Server è commerciale, ma ha una demo di prova online.

Software gratis

FreeOCR - solo per immagini.

FreeOCR è un programma di scansione e OCR che include il motore ocr gratuito di Tesseract noto anche come GUI di Tesseract. Include un programma di installazione di Windows ed è molto semplice da usare e supporta tiff multipagina, documenti fax e la maggior parte dei tipi di immagini, inclusi Tiff compressi che il motore Tesseract non è in grado di leggere da solo. Ora ha la scansione Twain.

pdfsandwich - pdf -> convertitore pdf.

pdfsandwich è uno strumento da riga di comando per libri o riviste scansionati OCR. È in grado di riconoscere il layout della pagina anche per il testo a più colonne.

In sostanza, pdfsandwich è uno script wrapper che chiama i seguenti binari: convert, cuneiform, gs e hocr2pdf. È noto per essere eseguito su sistemi Unix ed è stato testato su Linux e MacOS X. Supporta l'elaborazione parallela su sistemi multiprocessore.

— harrymc
fonte

Ho appena usato pdfsandwich. Funziona ed è gratis! :) Questo sicuramente aiuterà nella mia tesi, grazie!

— Eddy,

Sembra che pdfsandwich si sia spostato? tobias-elze.de/pdfsandwich

— pioto

@pioto: Non sono io che ho aggiunto pdfsandwich sopra, ma ho corretto il link come mi hai suggerito.

— harrymc,

2

Cuneiform + hocr2pdf + Ghostscript : una soluzione open source fai-da-te.

Ho pubblicato una risposta che delinea una soluzione che coinvolge una versione del sistema Oune Cuneiform ora open source e hocr2pdf insieme a Ghostscript per mettere insieme le pagine PDF.

Questo era specifico per Linux, ma puoi ottenere anche Cuneiform e Ghostscript per Windows. Non sono sicuro di hocr2pdf o di un equivalente, però.

— Jukka Matilainen
fonte

1

Ecco un metodo molto strano, che prevede di consentire a Google di indicizzare e OCR per te su un sito Web, quindi di recuperarlo.

— jtbandes
fonte

sì, l'ho visto anche io ... strano davvero :) Potrei finire per farlo ...

0

Installa Imagemagick . Apri una finestra o un terminale cmd:

convert myfile.pdf myfile-%02d.jpg

L'output sarà 1 file jpg per ogni pagina nel tuo pdf, myfile-00.jpg, myfile-01.jpg, ecc.

Passa ogni immagine attraverso un programma OCR. Non ho molta esperienza con questo, ma sembrano esserci molte scelte.

Converti ogni pagina di testo in pdf. Potresti farlo di nuovo con imagemagick, ma ci sono anche altri modi:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf

— DaveParillo
fonte

0

La tua richiesta sembra essere una soluzione complicata al problema, anche se potrei non capire correttamente il problema. Ad ogni modo:

Perché non ottenere uno scrittore PDF che ti permetta di inserire i dati direttamente sulla pagina pdf?

— Xavierjazz
fonte

0

Prova PDFCubed.com Nulla da installare, è tutto online. È possibile inviare i documenti da elaborare tramite Web, e-mail o dropbox. I PDF e i TIF scansionati vengono convertiti in PDF di testo ricercabili e possono essere recuperati tramite Web, e-mail o dropbox.

— rlangner
fonte