Risposte:
Esistono numerosi lettori OCR per Linux che possono convertire da immagine a testo. Guarda le seguenti opzioni:
Tutto quanto sopra, tranne ocropus, è presente nel repository Ubuntu in un pacchetto con lo stesso nome.
Lettori diversi supportano formati di immagine diversi, quindi potresti essere limitato nelle opzioni dal formato di file in cui si trova il tuo documento. In alternativa, puoi utilizzare lo strumento di conversione da ImageMagick per modificare il formato se desideri utilizzare un particolare lettore OCR.
Adattato dalla mia risposta qui .
Devi prima installare "tesseract-ocr" sul tuo computer linux.
sudo apt-get install tesseract-ocr
Puoi farlo manualmente dalla CLI o ho creato il codice PHP per lo stesso, puoi usarlo se vuoi.
Nota: per eseguire questo codice, il comando exec dovrebbe essere abilitato in php.ini
<?php
//IMAGE TO TXT Conversion
$input_file = $_REQUEST['input_file'];
$out = explode(".",$input_file);
$output_file = $out[0]."_".$out[1];
$output_file_name = $output_file.".txt";
echo "<br />----IMAGE To TXT conversion Started-----</br />";
echo exec('tesseract '.$input_file.' '.$output_file);
echo "<br />----TXT conversion Done-----</br />";
echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />";
?>
mettere questo codice nella cartella principale e accedervi dal browser,
per esempio :
http://yourserver.com?input_file=1.png
Nota: il file 1.png dovrebbe essere presente nella directory corrente.
Non ho i diritti per caricare l'immagine, ho usato questa immagine come riferimento, http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview