Come posso rimuovere lo sfondo della pagina in scala di grigi di una scansione di documenti PDF preservando il testo? (Binarizzazione)


9

Il mio PDF contiene 600 pagine con immagini di testo. Ha 2 strati .

  • Livello 1: immagine a colori di sfondo

  • Livello 2: immagine di testo

Vorrei rimuovere tutti i livelli dell'immagine di sfondo nel file PDF totale come mostrato nell'immagine.

inserisci qui la descrizione dell'immagine

Potresti suggerirmi qualche software / strumento?

inserisci qui la descrizione dell'immagine


Quale versione di Ubuntu stai usando?
Mitch

Ubuntu 13.10, 64 bit.
Raghu G,

Descrizione della domanda aggiornata.
Raghu G,

Risposte:


9

Panoramica

Quello che stai cercando sono strumenti come Scan Tailor e unpaper in grado di soglie , despeckling e rimozione del rumore . Entrambi gli strumenti funzionano con immagini anziché con file PDF, ma è possibile convertire facilmente tra i diversi formati utilizzati da queste applicazioni e PDF utilizzando gli strumenti descritti alla fine di questa risposta.

ScanTailor

Puoi trovare un tutorial video qui . Documentazione più ampia è disponibile sul wiki ufficiale . Probabilmente sarai più interessato alla pagina sulla modalità di output in bianco e nero e alle impostazioni del filtro .

unpaper

Non ho ancora lavorato con unpaperme stesso. Da quello che ho capito, ha molte più funzioni di ScanTailor ma è anche molto più difficile da padroneggiare.

Non esiste un'interfaccia GUI e dovrai fare affidamento sulle opzioni della riga di comando per completare il tuo lavoro. D'altra parte, ciò significa che le conversioni con unpaperpossono essere facilmente automatizzate utilizzando gli script.

Puoi trovare alcuni esempi di scripting riguardanti la conversione di una scansione in bianco e nero e la rimozione dello sfondo qui .


Alcuni strumenti utili quando si lavora con unpaper e ScanTailer

Non ho abbastanza tempo per scrivere un tutorial completo su ScanTailor e unpaper¹, ​​ma qui ci sono alcuni suggerimenti riguardanti la conversione tra .pdfi formati di immagine supportati da questi strumenti:

  • È possibile utilizzare pdfimagesper convertire documenti PDF in .ppmfile a pagina singola , che possono essere letti da unpaper.

    Esempio di utilizzo:

    pdfimages *.pdf ./extracted-images
  • ScanTailor non accetta i .ppmfile come input. Dovrai convertirli in un altro formato come il .pngprimo senza perdite . mogrifyfuori dalla imagemagicksuite di strumenti puoi farlo per te.

    Esempio di utilizzo:

    mogrify -format png *.ppm
  • Il formato di output di ScanTailor e unpaper sono .tifffile a pagina singola . Per riconvertirli in .pdf, suggerirei di usare tiffcpe tiff2pdf.

    Esempio di utilizzo:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff

Installazione

Questo comando installa tutti gli strumenti sopra menzionati:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹: per chiunque legga questo, sentiti libero di compilare una risposta più ampia basata su ScanTailor e / o unpaper.


Scantailer funziona ma su file pdf. Dovresti prima convertirlo in un formato immagine.
Da fare

@ ToDo Sì, come indicato nella risposta :).
Glutanimate,

Me ne sono reso conto ora. È meglio organizzare la risposta in modo che tutte le informazioni su ciascun programma siano in un blocco.
Da fare

@ToDo Il motivo originale per cui ho messo gli strumenti in una sezione spearate era perché erano rilevanti sia per unpaper che per Scantailor. Hai ragione, però, era un po 'disorganizzato. Penso che dovrebbe essere meglio ora
Glutanimate,

3

Ho appena trovato una soluzione molto semplice:

  • installa gscan2pdf.

  • Apri gscan2pdfe importa il PDF.

  • strumenti-> soglia. Il valore predefinito dell'80% ha funzionato bene per me.

  • salva il PDF in un'altra posizione.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.