Panoramica
Quello che stai cercando sono strumenti come Scan Tailor e unpaper in grado di soglie , despeckling e rimozione del rumore . Entrambi gli strumenti funzionano con immagini anziché con file PDF, ma è possibile convertire facilmente tra i diversi formati utilizzati da queste applicazioni e PDF utilizzando gli strumenti descritti alla fine di questa risposta.
ScanTailor
Puoi trovare un tutorial video qui . Documentazione più ampia è disponibile sul wiki ufficiale . Probabilmente sarai più interessato alla pagina sulla modalità di output in bianco e nero e alle impostazioni del filtro .
unpaper
Non ho ancora lavorato con unpaper
me stesso. Da quello che ho capito, ha molte più funzioni di ScanTailor ma è anche molto più difficile da padroneggiare.
Non esiste un'interfaccia GUI e dovrai fare affidamento sulle opzioni della riga di comando per completare il tuo lavoro. D'altra parte, ciò significa che le conversioni con unpaper
possono essere facilmente automatizzate utilizzando gli script.
Puoi trovare alcuni esempi di scripting riguardanti la conversione di una scansione in bianco e nero e la rimozione dello sfondo qui .
Alcuni strumenti utili quando si lavora con unpaper e ScanTailer
Non ho abbastanza tempo per scrivere un tutorial completo su ScanTailor e unpaper¹, ma qui ci sono alcuni suggerimenti riguardanti la conversione tra .pdf
i formati di immagine supportati da questi strumenti:
È possibile utilizzare pdfimages
per convertire documenti PDF in .ppm
file a pagina singola , che possono essere letti da unpaper
.
Esempio di utilizzo:
pdfimages *.pdf ./extracted-images
ScanTailor non accetta i .ppm
file come input. Dovrai convertirli in un altro formato come il .png
primo senza perdite . mogrify
fuori dalla imagemagick
suite di strumenti puoi farlo per te.
Esempio di utilizzo:
mogrify -format png *.ppm
Il formato di output di ScanTailor e unpaper sono .tiff
file a pagina singola . Per riconvertirli in .pdf
, suggerirei di usare tiffcp
e tiff2pdf
.
Esempio di utilizzo:
tiffcp *.tiff all.tiff
tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
Installazione
Questo comando installa tutti gli strumenti sopra menzionati:
sudo apt-get install scantailor unpaper poppler-utils libtiff-tools
¹: per chiunque legga questo, sentiti libero di compilare una risposta più ampia basata su ScanTailor e / o unpaper.