come estrarre testo da pdf con caratteri di sottoinsieme incorporati

1

Pdftotext di xpdf funziona bene per il normale file di caratteri incorporati, ma non riesce dove sono presenti i caratteri dei sottoinsiemi incorporati. C'è qualche soluzione per questo problema?

pdf embedded-fonts xpdf

— Nishanth Lawrence
fonte

Risposte:

0

Il problema è probabilmente che i caratteri che sono resi usando il font del sottoinsieme hanno una codifica personalizzata - la rappresentazione numerica dei caratteri non corrisponde a ASCII, Latin-1 o qualsiasi altra codifica comune.

Vedere

Ciò significa che non esiste una soluzione semplice.

— RedGrittyBrick
fonte

0

In questa situazione, ho stampato i PDF utilizzando la stampante Adobe PDF tramite un'immagine ad alta risoluzione (1200 dpi +) e di alta qualità (tutte le impostazioni possibili). Quindi, OCR l'immagine PDF, lasciandomi con un PDF ricercabile e praticabile.

Quando ho molti PDF da fare su migliaia di pagine, ho aperto più finestre PDF contemporaneamente per farlo contemporaneamente usando più core per più PDF. È una PITA, ma funziona.

Spero che i tuoi file siano piccoli! L'ho fatto una volta fino a 10.000 pagine (creazione di libri di codice). Non è divertente.

— Damon
fonte

Grazie per la risposta . Ma come mai il visualizzatore di PDF è in grado di interpretarlo correttamente?

— Nishanth Lawrence,

Probabilmente perché la codifica è incorporata nel PDF, non nel programma.

— Damon,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.

Licensed under cc by-sa 3.0 with attribution required.