Ho un PDF di un libro digitalizzato.
Sto cercando un software gratuito che eseguirà l'OCR e quindi fornirà un'opzione per salvarlo nuovamente come PDF o documento.
Ce n'è uno?
Ho un PDF di un libro digitalizzato.
Sto cercando un software gratuito che eseguirà l'OCR e quindi fornirà un'opzione per salvarlo nuovamente come PDF o documento.
Ce n'è uno?
Risposte:
Puoi scaricare la versione di prova di 30 giorni di Adobe Acrobat Pro e utilizzare la funzione "Riconoscimento testo OCR" ("Documento> Riconoscimento testo OCR> Riconoscimento testo tramite OCR ..."). Nella finestra di dialogo delle impostazioni, seleziona "Immagine ricercabile" come stile di output. Ciò manterrà l'immagine della pagina ma incorporerà il testo dell'OCR in modo che il documento sia ricercabile e consenta di selezionare, copiare e incollare il testo.
Dopo aver eseguito l'OCR dovrai confermare o correggere le parole che l'OCR non è sicuro sull'uso delle funzioni "Trova sospetti OCR".
Se disponi di un account Google, Google Documenti ora include la funzionalità per caricare un file PDF ed eseguire l'OCR su di esso.
L'ho provato da solo e crea un discreto pugnalato a un PDF ben formattato.
La formattazione è praticamente distrutta ma il testo sembra sopravvivere.
I seguenti prodotti sono stati trovati elencati su Internet, ma non li ho usati.
OCR online
Il Terminale OCR è un servizio OCR online che esegue il riconoscimento ottico dei caratteri (OCR) sulle immagini digitalizzate e sui file pdf e le trasforma in documenti modificabili e ricercabili tramite testo.
Free-OCR.com è uno strumento OCR (Optical Character Recognition) online gratuito. Puoi usarlo per eseguire l'OCR su qualsiasi immagine che fornisci.
Questo servizio è gratuito, non è necessaria la registrazione. Inoltre non abbiamo bisogno del tuo indirizzo email.
Carica i tuoi file immagine. Free-OCR accetta JPG, GIF, TIFF BMP o PDF ( solo prima pagina ). L'unica limitazione è che le immagini non devono essere più grandi di 2 MB, non più larghe o più alte di 5000 pixel e c'è un limite di 10 upload di immagini all'ora.
Maestro Recognition Server è commerciale, ma ha una demo di prova online.
Software gratis
FreeOCR - solo per immagini.
FreeOCR è un programma di scansione e OCR che include il motore ocr gratuito di Tesseract noto anche come GUI di Tesseract. Include un programma di installazione di Windows ed è molto semplice da usare e supporta tiff multipagina, documenti fax e la maggior parte dei tipi di immagini, inclusi Tiff compressi che il motore Tesseract non è in grado di leggere da solo. Ora ha la scansione Twain.
pdfsandwich - pdf -> convertitore pdf.
pdfsandwich è uno strumento da riga di comando per libri o riviste scansionati OCR. È in grado di riconoscere il layout della pagina anche per il testo a più colonne.
In sostanza, pdfsandwich è uno script wrapper che chiama i seguenti binari: convert, cuneiform, gs e hocr2pdf. È noto per essere eseguito su sistemi Unix ed è stato testato su Linux e MacOS X. Supporta l'elaborazione parallela su sistemi multiprocessore.
Cuneiform + hocr2pdf + Ghostscript : una soluzione open source fai-da-te.
Ho pubblicato una risposta che delinea una soluzione che coinvolge una versione del sistema Oune Cuneiform ora open source e hocr2pdf insieme a Ghostscript per mettere insieme le pagine PDF.
Questo era specifico per Linux, ma puoi ottenere anche Cuneiform e Ghostscript per Windows. Non sono sicuro di hocr2pdf o di un equivalente, però.
Installa Imagemagick . Apri una finestra o un terminale cmd:
convert myfile.pdf myfile-%02d.jpg
L'output sarà 1 file jpg per ogni pagina nel tuo pdf, myfile-00.jpg, myfile-01.jpg, ecc.
Passa ogni immagine attraverso un programma OCR. Non ho molta esperienza con questo, ma sembrano esserci molte scelte.
Converti ogni pagina di testo in pdf. Potresti farlo di nuovo con imagemagick, ma ci sono anche altri modi:
convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
La tua richiesta sembra essere una soluzione complicata al problema, anche se potrei non capire correttamente il problema. Ad ogni modo:
Perché non ottenere uno scrittore PDF che ti permetta di inserire i dati direttamente sulla pagina pdf?
Prova PDFCubed.com Nulla da installare, è tutto online. È possibile inviare i documenti da elaborare tramite Web, e-mail o dropbox. I PDF e i TIF scansionati vengono convertiti in PDF di testo ricercabili e possono essere recuperati tramite Web, e-mail o dropbox.