Ho Linux Mint 17.2 x32 Cannella. Probabilmente questi passaggi funzionerebbero anche in Ubuntu 14.04 x32.
- Installa Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Puoi aggiungere altre lingue installando pacchetti aggiuntivi. Questo screenshot è tratto da synaptic:
pacchetti in lingua Tesseract in Synaptic
Usando Tesseract
OPZIONE 1 - dal terminale aperto della riga di comando, quindi vai alla cartella in cui tieni i file di immagine (jpg, png) ed esegui il comando:
a) per convertire tutti i file di immagine in testo
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done
Per unire tutti i file di testo in uno, eseguire un comando cat *.txt >> all.txt
b) convertire tutti i file di immagine in file hocr (aprire con Firefox)
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done
OPZIONE 2 - dalla GUI
a) Installa gImageReader e usalo
sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader
b) La seconda applicazione è VietOCR. La versione effettiva è 4.0, quindi scarica VietOCR-4.0.zip
Scompatta file e apri VietOCR.jar di Java:
Apri VietOCR di Java
Se non hai Java installato, puoi installarlo dal repository o Puoi installare Oracle Java 8. ufficiale Procedura per installare Oracle Java 8 in Ubuntu 14.04
sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default
Raccomando VietOCR, perché ti consente di OCR file pdf, anche la conversione in blocco è un'opzione.