Pdftotext di xpdf funziona bene per il normale file di caratteri incorporati, ma non riesce dove sono presenti i caratteri dei sottoinsiemi incorporati. C'è qualche soluzione per questo problema?
Pdftotext di xpdf funziona bene per il normale file di caratteri incorporati, ma non riesce dove sono presenti i caratteri dei sottoinsiemi incorporati. C'è qualche soluzione per questo problema?
Risposte:
Il problema è probabilmente che i caratteri che sono resi usando il font del sottoinsieme hanno una codifica personalizzata - la rappresentazione numerica dei caratteri non corrisponde a ASCII, Latin-1 o qualsiasi altra codifica comune.
Vedere
Ciò significa che non esiste una soluzione semplice.
In questa situazione, ho stampato i PDF utilizzando la stampante Adobe PDF tramite un'immagine ad alta risoluzione (1200 dpi +) e di alta qualità (tutte le impostazioni possibili). Quindi, OCR l'immagine PDF, lasciandomi con un PDF ricercabile e praticabile.
Quando ho molti PDF da fare su migliaia di pagine, ho aperto più finestre PDF contemporaneamente per farlo contemporaneamente usando più core per più PDF. È una PITA, ma funziona.
Spero che i tuoi file siano piccoli! L'ho fatto una volta fino a 10.000 pagine (creazione di libri di codice). Non è divertente.