Come posso correggere e ritagliare automaticamente i PDF creati da pagine scansionate *? [duplicare]


13

Possibile duplicato:
quale software gratuito posso usare per modificare le immagini acquisite

Ho diversi PDF costituiti da scansioni di pagine di libri. Le scansioni vengono eseguite da due pagine alla volta e alcune di queste scansioni sono inclinate, facendo apparire il testo leggermente inclinato.

Sto cercando uno strumento che mi consenta di eseguire un'ottimizzazione automatica, distorcendo le scansioni senza perdere la leggibilità. Ho trovato il software GPL Briss per ritagliare le scansioni al fine di avere un rapporto di pagina 1: 1 anziché 2: 1, ma non ho nessuno strumento per correggere le pagine.

Mi sono imbattuto in unpaper , un altro strumento open source che sembra perfetto per quello che voglio fare, ma quello strumento è solo Linux e non funziona direttamente sui file PDF.

Ogni suggerimento è apprezzato.


1
@Random: Perché questa domanda è stata chiusa ?? Perché questo argomento dovrebbe sollecitare "dibattito, argomentazioni, sondaggi o discussione estesa"?!?
Kurt Pfeifle l'

1
"Alla ricerca di uno strumento" è praticamente il polling dei servizi che porta alla stretta ragione non costruttiva @kur
random

1
@Random: questa domanda mi ha portato a fare delle ricerche sull'argomento e ho trovato alcune opzioni interessanti da perseguire. Il più interessante sta usando ImageMagick per questo, e sembra sorprendentemente semplice. Purtroppo la tua chiusura di questo non mi consente di pubblicare la mia risposta.
Kurt Pfeifle l'

@Random: ora ho modificato un po 'la domanda. Spero che ora sia più conforme al tuo senso di "costruttività".
Kurt Pfeifle l'

@Random: Ok, 'chiusura come duplicato' è meglio accettabile per me in questo caso.
Kurt Pfeifle,

Risposte:


9

Dai un'occhiata al disallineamento . È uno strumento da riga di comando. Il download * zip sembra includere binari per Windows, MacOSX e Linux.

La licenza è MPL (Mozilla) o LPGL (GNU), qualunque cosa tu preferisca.

L'unico inconveniente per te sembra essere che non consuma PDF, solo immagini PNG e TIFF (AFAICS). Ciò significa che dovrai impostare un flusso di lavoro di s.th. piace:

 PDF.orig -> PNG.orig -> PNG.deskewed -> PDF.deskewed

Non l'ho provato da solo (ancora), mi sono appena imbattuto nel sito Web di recente e l'ho aggiunto ai segnalibri.


deskewsono riuscito a correggere la distorsione legata alla rotazione durante la mia prova ma sfortunatamente ha introdotto una sottile linea grigia nella posizione del bordo dell'immagine originale. Per eliminare il bordo grigio ho ritagliato le immagini con l' -extentopzione di mogrify. Ho provato solo su OS X, forse questo comportamento scorretto è specifico della piattaforma.
Stefan Schmidt,

deskewfunziona davvero bene. Il mio flusso di lavoro è così: pdfimages -all <pdf> my_imagesjbig2 -s -p -v my_images* > outputpdf.py output > deskewed.pdfSe i bordi neri (risultato dell'operazione di inclinazione) ti danno fastidio, potrebbe essere necessaria qualche elaborazione con imagemagick , come suggerito da @StefanSchmidt
Mr. Tao

5

Oh, lasciami aggiungere un'altra risposta. Mi sono appena ricordato di netpbm . Non lo uso da anni, ma penso che dovrei dare un nuovo sguardo ...

netpbm è un toolkit molto potente per la riga di comando per la manipolazione di immagini grafiche. Spedisce quasi 300 strumenti separati. Include convertitori per circa 100 formati grafici.

E ha anche uno strumento da riga di comando che può ruotare le immagini:

pnmrotate

E ha un altro strumento che cerca di scoprire l'angolo delle immagini ruotate:

pamtilt

pamtiltrestituisce un numero variabile della sua ipotesi di rotazione dell'immagine. Quindi il disallineamento automatico delle immagini dovrebbe essere a portata di mano. Uno script di shell potrebbe essere scritto per farlo. Richiederebbe diversi passaggi:

  1. Converti la pagina PDF in un formato immagine adatto a netpbm con l'aiuto di Ghostscript.
  2. Utilizzare pamtiltper scoprire automaticamente l'angolo di inclinazione dell'immagine.
  3. Utilizzare pnmrotateper inclinare l'immagine.
  4. Convertire nuovamente l'immagine in PDF.

Se mi fornisci l'accesso a un piccolo campione dei tuoi file PDF, potrei provare a creare uno script di shell per realizzare l'impresa.


(Mi chiedo fortemente che [netpbm] non abbia visto di avere un tag qui sul superutente + stackoverflow.)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.