Ho un file PDF contenente le mappe dell'edificio in cui lavoro, qui:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
I file di origine originali sono andati persi e mi è stato chiesto di estrarre le immagini della mappa, preferibilmente senza il testo e le icone sovrapposte. Questo si è rivelato fastidiosamente difficile.
Finora ho provato i seguenti programmi di interfaccia grafica:
- Adobe Reader: mi consente di selezionare il testo, ma non le immagini di sfondo
- FoxIt PDF Viewer: mi permette di selezionare il testo, ma non le immagini di sfondo
- XPDF su Ubuntu 10.10: consente di selezionare il testo, ma non le immagini di sfondo
E anche i seguenti programmi da riga di comando:
- pdfimages: estrae bene le icone che indicano i bagni, ma non le immagini di sfondo
- pdftohtml: uguale a pdfimages, inoltre crea un documento HTML scarsamente marcato
- pdfextract: uguale a pdfimages
- convertire: immagini salvate correttamente, ma con il testo masterizzato in esse
Ho anche provato ad aprire manualmente il PDF in un editor di testo ed estrarre gli oggetti stream incollandoli in un nuovo file e salvandolo con un'estensione .jpg, .png o .bmp (ciascuno a sua volta). Considerando quanto poco so sulla struttura interna dei file PDF, non sorprende che non abbia funzionato.
Quindi ... c'è un modo per recuperare le immagini della mappa da questa cosa senza ottenere anche il testo e le icone?
qpdf
per convertire il più possibile le parti binarie in ASCII. (2) Utilizzare un editor di testo per rendere invisibile tutto il testo che non voglio vedere sullo schermo o nelle stampe (può essere ottenuto facilmente e senza danni alla tabella XRef attivando la bandiera invisibile ). (3) Ri-distillare il risultato con Ghostscript per ridurne il più possibile le dimensioni. - Sfortunatamente, il tuo file non è più scaricabile per dimostrare la procedura ...