Consigli sul software di riconoscimento ottico dei caratteri?


15

Ho visto alcuni e-book / documenti apparentemente scansionati dalle loro versioni cartacee, ma il testo negli e-book / documenti può essere incredibilmente copiato. Suppongo che le versioni a scansione diretta debbano essere state elaborate da alcuni software di riconoscimento ottico dei caratteri.

Quindi vorrei sapere quali sono i software di riconoscimento ottico dei caratteri consigliati? Soprattutto quelli che sono per Ubuntu o gratuiti? Se quelli per Windows sono molto più superiori, per favore fatemelo sapere pure.

Sono particolarmente interessato a quegli OCR che possono accettare un file pdf scansionato come input e comunque produrre come output un altro file pdf che assomiglia a quello di input ma con il suo testo copiabile.

Grazie e saluti!

Si prega di limitare un software per risposta

Risposte:


10

Tesseract OCR Installa OCR Tesseract

Il motore originale è stato sviluppato alla fine degli anni '80 da HP e IBM, ma ha dimostrato di essere uno dei migliori software di riconoscimento oculare che ho usato. Recentemente ha subito molti aggiornamenti al motore ed è diventato uno degli strumenti OCR più completi sul mercato. Valorizzando la maggior parte degli altri strumenti OCR (con qualcosa nel 90 percento più alto delle corrispondenze di testo) può facilmente trasformare il tipo di documento standard in testo.

Quanto segue è un esempio:

tesseract ScannedDocument.png out

Produrrà un file chiamato out.txt


Grazie! Non ho visto che Tesseract supporta l'output pdf. Ne sai qualcosa?
StackExchange per tutto il

@Tim, nativamente non credo che Tesseract supporti molti formati di input / output. Tuttavia, come menzionato nella risposta di JanC, gscan2pdf utilizza Tesseract per OCR e, come suggerisce il nome, supporta l'output PDF.
Tim Lytle,

Nota che OCR sta per riconoscimento ottico dei caratteri: en.wikipedia.org/wiki/Optical_character_recognition
Jose Gómez

8

Un altro progetto che dovrebbe essere in grado di farlo è gscan2pdf

sudo apt-get install gscan2pdf

Questo progetto può anche utilizzare Tesseract e altri strumenti OCR open source.


3

Non conosco alcun OCR per Ubuntu, ma per Windows ce n'è uno che ha le funzionalità di cui hai bisogno. Questa è ABBYY FineReader questa è la pagina ma non è gratuita


1
Ho usato FineReader esattamente come Tim vuole (per aprire PDF protetti)
Extender il

3

Esiste una soluzione gratuita in repository , CunieForm (e YAGF come frontend Gnome per esso)


Grazie! CunieForm supporta pdf come formati di input e output? Non l'ho visto sulla sua pagina Wikipedia e sulla sua pagina ufficiale.
StackExchange per tutto il

Forse no, ma dividere il PDF in serie di TIFF è comunque un compito semplice :)
Extender

3

Sembra che il progetto Decapod esporti o esporti in PDF, quindi Tesseract deve in qualche modo esportare le informazioni necessarie per sapere dove è stato trovato il testo.


1

Adobe Acrobat (non lettore, non un'applicazione gratuita) è in grado di eseguire l'OCR di un documento PDF scansionato e di aggiungere un livello di testo invisibile nella parte superiore dell'immagine, in modo che il testo possa essere selezionato e copiato. Sfortunatamente non ho a portata di mano controllare esattamente dove si trova quella funzione nell'interfaccia utente di Acrobat, ma l'ho utilizzata con successo un paio di volte per lo stesso scopo menzionato.

E sì, questo è un software Windows, non Linux, ma secondo il database dell'applicazione Wine HQ, funziona con Wine .


1

Il miglior software OCR è solitamente incorporato in stampanti / scanner / fotocopiatrici. La Canon IRC 3880 nel mio ufficio è in grado di produrre pdf OCR fantastici in modo più semplice e veloce di qualsiasi programma desktop che conosco. Metti il ​​libro sul vassoio (non associato), seleziona il tuo indirizzo e-mail, premi il pulsante verde.

La maggior parte del pdf dell'OCR che puoi trovare in rete proviene da macchine simili. Il problema è che il prezzo è troppo alto per l'uso domestico (circa 12000 euro IRC).



1

OCRFeeder

È un'applicazione GUI.

inserisci qui la descrizione dell'immagine

Utilizza tesseract-ocr o ocrad come motore OCR.

Può installare con Software Center o con,

sudo apt-get install ocrfeeder

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.