Qual è la soluzione OCR migliore e più semplice?


78

Vorrei scansionare una buona quantità di documenti che ho in giro, con il minimo fastidio possibile. Vorrei convertirli in immagini utilizzando Simple Scan, quindi convertirli in testo tramite OCR. Esiste una buona app OCR con una GUI che mi darà buoni risultati con la semplice pressione di un pulsante?


Abbiamo davvero bisogno di molte rielaborazioni in questo thread. Così tante cose vecchie / deprezzate / ... Nessun test da una riga. Principalmente risultati / elenchi incollati qui. Nessuna garanzia di qualità.
Léo Léopold Hertz

Nel 2018, la soluzione OCR di gran lunga più semplice utilizza un oCR api online : Google Vision OCR, Azure OCR o l'API OCR gratuita OCR.space forniscono tutti risultati OCR di alta qualità, ovviamente solo se l'applicazione / il caso d'uso consente una soluzione cloud .
Nic Endo,

Risposte:


70
  • GOCR di è un programma OCR (Optical Character Recognition) che converte le immagini scansionate del testo in file di testo.

  • CLARA è un'altra buona opzione grafica.

  • OCRAD di è un OCR che può essere utilizzato come applicazione console autonoma o come backend ad altri programmi.

  • KOOKA da è un'applicazione KDE ma funziona bene, inoltre devi installare programmi OCR reali come GOCR e OCRAD. Dopo aver installato Kooka e i programmi OCR, devi indirizzare Kooka sul percorso di installazione OCR affinché sia ​​in grado di converti il ​​JPEG in testo.

  • OCRFeeder di è un'analisi del layout del documento e un sistema di riconoscimento ottico dei caratteri.

  • Tesseract da è utility a riga di comando ed è molto semplice da use.You può installare il pacchetto lingua tesseract-OCR-ita da qui .

Dai un'occhiata a questa pagina .

Nota:
per eseguire tesseract goto terminal e digitare quanto segue

tesseract imagefile.tif outputfile.txt

Tesseract può solo leggere un file TIFF: se hai un file JPEG o PDF o altro, dovrai convertirlo. Inoltre, l'estensione del nome file deve essere .tif, non .tiff, altrimenti verranno eliminati gli errori tesseract.


1
Se la tua lingua parlata non è l'inglese? sono delle estensioni per altre lingue?
Vassilis,

3
@Vassilis: i sistemi OCR sono indipendenti dalla lingua perché riconoscono caratteri, non parole. Tuttavia, se il tuo alfabeto ha caratteri non latini1 (come il cirillico), potrebbero mancare quelli.
OpenNingia,

2
@OpenNingia: la lingua può essere importante, anche con i sistemi di scrittura che usano solo lettere latine. Aiuta l'OCR a discriminare tra lettere ambigue.
Frédéric Grosshans,

13
Tali domande / risposte confondono davvero askubuntu. La persona ha chiesto "Qual è la soluzione OCR migliore e più semplice" e non "quali sono tutte le app OCR disponibili per Linux". Questa soluzione non avrebbe dovuto essere accettata! Davvero confuso e non utile.
Alin Andrei,

1
Ubuntu corrente tesseract(3.04.00 su Ubuntu 15.10) non ha problemi con i PNGfile di input. accetta i JPGfile, ma dà risultati peggiori per loro, come ci si aspetterebbe da ulteriori artefatti di compressione.
Volker Siegel,

10

Ci sono alcuni popolari strumenti da riga di comando OCR che puoi usare (non sono sicuro che abbiano la GUI):

  • Tesseract ( Leggimi , FAQ ) (Python)

    Disponibile anche per: Tesseract .NET , Tesseract iOS

    Un motore OCR sviluppato negli HP Labs tra il 1985 e il 1995 ... e ora presso Google. Tesseract è probabilmente il motore OCR open source più accurato disponibile.

    Uso:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

    Riconoscimento dei caratteri open source. Converte le immagini scansionate del testo in file di testo. GOCR può essere utilizzato con diversi front-end, il che rende molto facile il porting su diversi sistemi operativi e architetture. Può aprire molti formati di immagine diversi e la sua qualità è migliorata quotidianamente.

  • OCRopus ™ ( FAQ ) (scritto in Python, NumPy e SciPy)

    Sistema OCR incentrato sull'uso dell'apprendimento automatico su larga scala per affrontare i problemi nell'analisi dei documenti, con analisi del layout collegabile, riconoscimento dei caratteri collegabile, modellistica statistica del linguaggio naturale e capacità multilingue.

    Il motore OCRopus si basa su due progetti di ricerca: un riconoscitore della calligrafia ad alte prestazioni sviluppato a metà degli anni '90 e distribuito dall'Ufficio censimento degli Stati Uniti e nuovi metodi di analisi del layout ad alte prestazioni.

    Lo sviluppo di OCRopus è sponsorizzato da Google ed è inizialmente destinato a sforzi di conversione di documenti ad alto rendimento e ad alto volume. Prevediamo che sarà anche un eccellente sistema OCR per molte altre applicazioni.

  • Tessnet2 (Open source, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

    Tesseract è un motore OCR open source C ++. Tessnet2 è un assembly .NET che espone metodi molto semplici per eseguire l'OCR. Tessnet2 è sotto licenza Apache 2 (come tesseract), il che significa che puoi usarlo come vuoi, incluso nei prodotti commerciali.

Pochi altri: ABBYY CLI OCR per Linux , Asprise OCR

Per un elenco più completo, consultare: Elenco dei software di riconoscimento ottico dei caratteri su Wikipedia

Vedi anche: wanghaisheng/awesome-ocr- Un elenco curato di promettenti risorse OCR su GitHub.


9

linux-intelligente-OCR-soluzione

disclaimer - Sono strettamente connesso con lo sviluppo di questa soluzione opensource

Lios può convertire la stampa in testo utilizzando lo scanner o una fotocamera.

Può anche produrre testo da immagini scansionate da altre fonti come Pdf, Immagine o Cartella contenente immagini.

Al programma viene data totale accessibilità per i non vedenti.

Dal momento che sono strettamente connesso, mi piacerebbe un feedback.


Dov'è la documentazione sull'utilizzo? lios non è così intuitivo come speravo.
un programmatore il

Il progetto si è trasferito qui .
Suzana,

È possibile eseguirlo attraverso la riga di comando solo in modalità senza testa sul server?
Deadlock,

9

gscan2pdf

OCR su PDF multipagina o documenti scansionati

Questo è probabilmente il modo più semplice. Gscan2pdf è uno strumento grafico che ti consente non solo di scansionare i file, ma anche di importare file ed eseguire l'OCR su di essi. Installa gscan2pdf da qui Installa gscan2pdf , da Ubuntu Software Center o eseguendo questo comando in un terminale:

sudo apt-get install gscan2pdf
  • Esegui gscan2pdf
  • Importa il pdf (Ctrl + O)
  • Opzionale: Strumenti> Pulizia
  • Scegli Strumenti> Salva OCR (Ctrl + S)

Gscan2PDF può utilizzare motori OCR personalizzabili, l'impostazione predefinita è tesseract-ocr

Potresti considerare di selezionare la lingua appropriata. In tal caso dovrai installare il tesseract-ocr-LANGpacchetto, dove si LANGtrova il codice lingua ISO 639-2 di tre lettere. In questo momento hai 108 lingue sul repository 16.04.


Non posso fare nulla con questo software. Nessuna rilevazione sufficiente a tutti. Sarebbe bello ottenere alcuni esempi di test sulle app prima dei loro consigli.
Léo Léopold Hertz 준영

gscan2pdf per almeno 16.04 non ha scorciatoie per le opzioni Ctrl + i. L'apertura di un file pdf identifica correttamente le "pagine da estrarre", ma selezionando "ok" non fa nulla.
user75505

3

Ho appena avuto successo (meno di 16.04) con pdfocr.rb . Questo è elencato sul wiki di Ubuntu

Ecco un ppa ma il repository per 16.04 non viene aggiornato. Lo script ruby ​​sopra di github funziona ancora con 16.04.

Puoi scaricarlo da Github. Avrai bisogno dei seguenti pacchetti installati:

ruby tesseract-ocr pdftk exactimage

quindi ha reso eseguibile pdfocr.rb ed ha eseguito:

./pdfocf.rb -i source.pdf -o output.pdf

Opzionalmente puoi usare il -l LANGparametro. In tal caso dovrai installare il tesseract-ocr-LANGpacchetto, dove si LANGtrova il codice lingua ISO 639-2 di tre lettere. In questo momento hai 108 lingue sul repository 16.04.


3

Il modo migliore e più semplice per usarlo pypdfocrnon cambia il pdf. pypdfocr è un collegamento al modulo Python qui.

pypdfocr your_document.pdf

Alla fine ne avrai un altro your_document_ocr.pdfnel modo desiderato con testo ricercabile. L'app non modifica la qualità dell'immagine. Aumenta un po 'la dimensione del file aggiungendo il testo di sovrapposizione.

Penso che il comando sia abbastanza semplice che non abbia bisogno di alcuna interfaccia grafica. Forse installare pypdfocr è un po 'più dettagliato:

sudo apt install tesseract-ocr 
pip install pypdfocr 

Aggiornamento 3 novembre 2018:

pypdfocrnon è più supportato dal 2016 e ho notato alcuni problemi a causa del mancato mantenimento. ocrmypdf(il modulo svolge un lavoro simile e può essere utilizzato in questo modo:

ocrmypdf in.pdf out.pdf

Installare:

pip install ocrmypdf

o

apt install ocrmypdf

Questo è uno strumento molto interessante, anche se penso che OP volesse uno strumento GUI per produrre un file di testo, non un sandwich PDF. Sarebbe bello se si potesse includere il sito web del progetto.
Andrea Lazzarotto,

@AndreaLazzarotto Sì, l'ho visto, ma dato che il comando è così semplice, immagino che molte persone possano usare il terminale per quello. quindi avrei dovuto includere la soluzione qui
Eduard Florinescu,

1
Per coincidenza, di recente ho scoperto "ocrmypdf". L'hai verificato? È molto carino. :)
Andrea Lazzarotto

@AndreaLazzarotto sembra una buona alternativa che potresti voler pubblicare una risposta;) Lo proverò a vedere come funziona :)
Eduard Florinescu,

@AndreaLazzarotto Sembra non sia così semplice installare ocrmypdf su ubuntu 16.04 github.com/jbarlow83/OCRmyPDF/issues/118
Eduard Florinescu

3

Solo perché funziona molto bene e dovrebbe sicuramente essere nell'elenco:

gImageReader
Esempio da una schermata:

inserisci qui la descrizione dell'immagine

È nei repository (ha risposto il 18.10, ma lo utilizza da anni)


Quando ho lanciato gimageReader per la prima volta, mi ha dato un messaggio "Nessuna lingua disponibile" per tesseract. La risposta " Come installo un nuovo language pack per tesseract " non viene elencata engcome opzione ... ma l'ho risolto! :) Correre sudo apt install tesseract-ocr-engnel terminal ha funzionato. Sarebbe bello se questo fosse documentato nel file di aiuto di gimageReader o "README" su github ... o da qualche parte. Come qui, forse.
Dɑvïd

1

gscan2pdf include 3 diversi motori ocr. Puoi scansionare direttamente al programma o importare il tuo pdf nel programma. Ho trovato che il motore Tesseract funziona alla grande e molto facile da usare

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.