Come faccio a convertire un PDF scansionato in un PDF con testo


36

Ho scannerizzato circa 80 pagine in pdf in scala di grigi (formato immagine). La dimensione finale del file è di circa 70 MB, il che è molto grande.

Ora sto cercando un metodo per convertire il file PDF basato su immagini in scala di grigi in un semplice file PDF basato su testo in bianco e nero.

Ho fatto molti tentativi, gsma senza successo (solo una percentuale di recupero). Se qualche esperto ha qualche idea, cortesemente fammi sapere.


1
Hai bisogno di qualche strumento OCR. Guarda Tesseract ubuntuforums.org/showthread.php?t=880471
Nikita U.

4
Se sei interessato a mantenere le immagini PDF così come sono e ad aggiungere testo ad esse, dai un'occhiata alla domanda Aggiunta di informazioni OCR a un PDF .
colan,

Se potessi pubblicare un link a (ad esempio) un esempio di una pagina potremmo testare le soluzioni ...
Rmano

Non è una soluzione OCR ma askubuntu.com/a/3387/16395 aiuta molto (anche se 72 dpi è un po 'basso, ho risultati migliori con 120).
Rmano,

YAGF funziona correttamente con Ubuntu 16.04? Se carico un'immagine o un documento pdf, il programma si interrompe senza alcun messaggio di errore. Sotto Ubuntu 14.04 non ho avuto problemi. H.Roos
Hubert Roos,

Risposte:


25

gImageReader è un semplice front-end GTK + tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr

scusa per il testo in tedesco


4
Dovresti anche installare la lingua del documento per migliorare l'OCR, sudo apt-get install tesseract-ocr-[lang]sostituendolo langcon il codice della lingua, come deuper il tedesco, porper il portoghese, ecc.
estibordo

1
Questo software è brutto. L'usabilità è inferiore a zero. Sebbene cerchi di fare il lavoro, ma non è in grado di leggere semplici tabelle simili a fogli di calcolo. Manca solo le pagine che le contengono.
Max Yudin,

9

Puoi provare pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

Per eseguire la sintassi è

 pdfocr -i input.pdf -o output.pdf

dove si input.pdftrova il nome del file di input e output.pdfdel file di output.

Di default usa Tesseract. Per installarlo:

 sudo apt-get install tesseract-ocr

pdfocr crea un livello di testo incorporato.


Grande! È interessante notare che dopo aver eseguito i passaggi sopra il file è ora disponibile per la ricerca in Adobe Acrobat DC ma non in Anteprima.
lukeaus,

2
Questo repository non supporta xenial
Max N

Puoi provare a installare una vecchia versione di pdfocr, se installi la versione astuta su xenial funziona bene. Per fare ciò aggiungere "deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" e "deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" in /etc/apt/sources.list e quindi "sudo apt update" e "sudo apt-get install pdfocr"
rafmunozf

2
pdfocr è uno script che automatizza il seguente processo: 1. Suddivisione del file PDF in pagine separate utilizzando pdftk 2. Estrazione dei dati di immagine tramite pdfimages 3. Esecuzione di OCR (riconoscimento ottico dei caratteri) mediante cuneiforme 4. Incorporamento del testo rilevato nel File PDF usando hocr2pdf 5. Unire i file usando pdftk. (citando da ubuntuforums.org/showthread.php?t=1456756 )
Tommy Trussell,

3
pdfsandwich

Carica tesseract e altri durante l'installazione. È una soluzione semplice in un solo passaggio e può essere gestita da script. Può usare hocr2pdfper creare un pdf in testo semplice, ma non è pronto per la prima serata ... ancora. L'impostazione predefinita utilizza tesseract e crea un pdf "sandwich": immagine + testo sottostante.

L'immagine incorporata può essere rimossa con comandi come:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

ma il testo è nascosto, quindi sembra una pagina vuota.

Il caricamento del PDF in LibreOffice Drawespone il testo e l'immagine può essere eliminata manualmente.


Cosa facciamo riguardo ai problemi di sicurezza di imagemagick / ghostscript che portano a not authorizederrori identify-im6.q16come questo: imagemagick - convertire: non autorizzato aaaa@ error /
constit.c

1

Per l'interfaccia grafica suggerita da @AB su Ubuntu 14.04 dovresti seguire:

ocr tesseract su ubuntu 14.04

o comunque, aggiungere all'elenco repository:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

prima che funzioni:

sudo apt-get install gimagereader

1

Puoi provare a restringere il file PDF per ridurre le dimensioni del file e quindi ocr.sh per aggiungere il livello di testo.


-1

Nel tuo file pdf, fai clic con il pulsante destro del mouse e salva ogni pagina come immagine (o trova uno strumento che fa automaticamente tutte le pagine)

Apri il centro software Ubuntu. Cerca tesseract. Questo troverà YAGF che dovresti installare. In YAGF, fai clic su File -> Apri immagine e carica l'immagine. Quindi fare clic su File -> Riconosci.

Ho avuto una precisione del 100% nel mio primo test.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.