come estrarre testo da pdf con caratteri di sottoinsieme incorporati


1

Pdftotext di xpdf funziona bene per il normale file di caratteri incorporati, ma non riesce dove sono presenti i caratteri dei sottoinsiemi incorporati. C'è qualche soluzione per questo problema?

Risposte:



0

In questa situazione, ho stampato i PDF utilizzando la stampante Adobe PDF tramite un'immagine ad alta risoluzione (1200 dpi +) e di alta qualità (tutte le impostazioni possibili). Quindi, OCR l'immagine PDF, lasciandomi con un PDF ricercabile e praticabile.

Quando ho molti PDF da fare su migliaia di pagine, ho aperto più finestre PDF contemporaneamente per farlo contemporaneamente usando più core per più PDF. È una PITA, ma funziona.

Spero che i tuoi file siano piccoli! L'ho fatto una volta fino a 10.000 pagine (creazione di libri di codice). Non è divertente.


Grazie per la risposta . Ma come mai il visualizzatore di PDF è in grado di interpretarlo correttamente?
Nishanth Lawrence,

Probabilmente perché la codifica è incorporata nel PDF, non nel programma.
Damon,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.