cerca PDF con codifiche di caratteri non standard


19

Alcuni file PDF producono immondizia (" mojibake ") quando si copia il testo (anche se vengono visualizzati correttamente). Questo rende impossibile cercarli (qualunque cosa cerchi non corrisponderà alla spazzatura).

Qualcuno ha una soluzione semplice?

Esempi:

  1. Manuale TEAC TV EU2816STF (produce problemi di cui sopra in Adobe Reader sia su Windows che su Mac, ma funziona bene in Anteprima su Mac)
  2. Manuale di Leadtek Winfast PVR2 (collegamento FTP; presenta anche problemi nell'anteprima su un Mac)
  3. Manuale della scheda di sintonizzazione TV Swann (collegamento FTP; presenta anche problemi nell'anteprima su un Mac)
  4. Contratto di licenza Phonedisc (dal ormai defunto DTMS )
  5. Revisione trimestrale del fondo Macquarie IFP
  6. Libretto per piccole imprese BAN-TACS (versione archiviata)
  7. Volantino Easterfest 2004 (anche dall'archivio)

Sto usando Adobe Reader (ultima versione) per Windows - forse un visualizzatore alternativo potrebbe aiutare? Sto cercando una soluzione gratuita per Windows. L'open source sarebbe ancora meglio.

Modifica: i documenti per lo strumento Estrai testo multivalente hanno un buon riassunto del perché le cose possono andare storte, tra cui: (documento citato ultima modifica gennaio 2006)

  • Il testo potrebbe non avere un mapping Unicode. I caratteri PDF Tipo 3 spesso non lo sono e TeX DVI ha caratteri che non hanno equivalenti Unicode.
  • La codifica Unicode potrebbe essere errata. Open Office associa alcuni caratteri allo stesso Unicode, causando la caduta e il raddoppio della lettera apparente.

Immagino che la soluzione definitiva in questi casi sarebbe quella di OCR ogni glifo in un font per capire di che carattere si tratta. Si noti che questo sarebbe più semplice dell'OCR di un documento scansionato rumoroso perché la forma esatta del glifo è disponibile (a risoluzione infinita poiché è un'immagine "vettoriale").


Usando clipbrd.exe(vedi mydigitallife.info/2008/11/06/… ) puoi vedere cosa c'è negli appunti. Cosa ti dà questo?
Arjan,

@Arjan van Bentem: mi dà esattamente la stessa spazzatura che ottengo incollando nel Blocco note.
Hugh Allen

Qualche dettaglio sul formato? Sono su un Mac, ma suppongo che Windows ti direbbe se qualcosa è un'immagine o un testo, e quindi per il testo forse rivela anche qualcosa sulla codifica?
Arjan,

Per l'esempio del manuale TV: stesso problema in Adobe Reader 8.1.2 su un Mac, ma nessun problema con l'anteprima del Mac per copiare o cercare testo. Le proprietà del documento mostrano "Codifica: personalizzata" per i caratteri (vedi img.skitch.com/20100318-827uckkb5i326eta291f3qig3u.png ). Altri documenti PDF mostrare le cose come "Codifica: Ansi" o "romano" e non hanno problemi in Adobe Reader su un Mac (come adobe.com/education/pdf/type_primer.pdf rendimenti img.skitch.com/20100318-tbyjrny9bsg684eqhr7b3au7fb.png ).
Arjan,

1
Inoltre, pdftextonline.com non può recuperare il testo dal Manuale TV né dal documento Phonedisc (non ha provato gli altri). Ma l'invio di Gmail e quindi la visualizzazione in formato HTML fa il lavoro per la TV Manuale (proprio come Anteprima non ha problemi con questo documento) ...
Arjan

Risposte:


3

Foxit Reader , forse?

Per quello che vale, ho appena controllato il PDF a cui ti sei collegato con Safari 4.0.4 su Mac OS X 10.6.2 e, sebbene ci sia un po 'di Engrish , il PDF viene visualizzato in modo impeccabile senza "immondizia" sullo schermo. Forse stai riscontrando problemi Unicode (più comuni su Windows che su Mac OS)?


La spazzatura non è sullo schermo - è negli appunti quando copio del testo. Cosa succede per te quando provi?
Hugh Allen,

@Hugh: Caratteristiche 􏰃 È un televisore a colori telecomandato. 􏰃 È possibile preimpostare 100 programmi da VHF, bande UHF o canali via cavo. 􏰃 Può sintonizzare i canali via cavo. 􏰃 Il controllo della TV è molto semplice grazie al suo sistema a menu. 􏰃 Ha tre prese Euroconnector per dispositivi esterni (come computer, video, videogiochi, set audio, ecc.)
Alex

@Hugh: i proiettili non vengono copiati correttamente, ma il resto lo è. Con quale sezione / pagina / paragrafo stai riscontrando un problema specifico e ci proverò?
Alex

Tutto. Sto usando Adobe Reader per Windows. Ho appena aggiornato all'ultima versione che non ha aiutato. +1 grazie per le informazioni. Immagino che Adobe Reader abbia un bug non condiviso dall'equivalente OSX.
Hugh Allen

4
Ho provato Foxit Reader e ha lo stesso problema. Il suo programma di installazione è anche molto invadente, volendo installare una barra degli strumenti, modificare la tua home page ecc :(
Hugh Allen

3

Il modo più semplice per aggirare il problema è aprire il file in una versione recente di Google Chrome con plug-in di lettura PDF incorporato . Quindi puoi utilizzare la funzione di ricerca di Chrome per trovare il testo e il copia e incolla funziona correttamente.


2

Per l'esempio del Manuale TV : stesso problema in Adobe Reader 8.1.2 su Mac, ma nessun problema con l'anteprima di Mac per copiare o cercare testo. Inoltre, inviarlo a un account Gmail e quindi scegliere "Visualizza" e quindi "HTML semplice" rivela il testo. Ad Adobe Reader non piace.

Le proprietà del documento mostrano "Codifica: personalizzata" per i caratteri. Un altro documento mostra cose come "Encoding: Ansi" o "Roman" e non presenta problemi né in Anteprima né in Adobe Reader su un Mac:

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine

Tuttavia, sia l'esempio di Leadtek che quello di Swann presentano problemi anche in Anteprima su Mac e in Gmail ed entrambi mostrano "Encoding: Identity-H". Anche il test Phonedisc fallisce, con "Encoding: Custom".

Confuso e non coerente, ma su alcuni forum di Adobe ho trovato la seguente spiegazione per l'ennesimo esempio che mostra "Encoding: Custom" (sottolineatura mia):

Dopo aver guardato all'interno del PDF, risulta che non sono presenti informazioni di codifica utilizzabili (né nel PDF né nei dati dei caratteri incorporati) per ricavare il significato dei caratteri / glifi visualizzati nelle pagine del documento.

I caratteri sono effettivamente tutti incorporati, ma in modo che tutte le informazioni di codifica siano state rimosse. Questo è un tipico esempio di PDF che è sintatticamente pienamente conforme alle specifiche PDF ma in cui informazioni importanti sul significato del testo in esso sono state gettate via durante il processo di creazione del PDF. Per quanto ne so, sarebbe molto difficile recuperare le informazioni di codifica.

Questo non spiega perché l'anteprima di Mac (e apparentemente anche Infix) sia in grado di gestire alcuni degli esempi in cui Adobe Reader ha esito negativo, anche con "Codifica: personalizzata". Forse l'anteprima non ha problemi quando il carattere esatto è presente sul computer stesso? O forse sta solo indovinando una codifica, che sembra funzionare per alcuni ma non per tutti i documenti?

Qualunque sia la causa: se il passaggio tramite Google Documenti o Gmail non funziona, forse la soluzione più semplice (ma tutt'altro che semplice) è effettivamente quella di salvare come TIFF e quindi fare OCR . Servizi come Evernote potrebbero farlo al volo (fa l'OCR sulle immagini; dubito che farà l'OCR su un PDF).


-1

Il download del file 1 non è riuscito per me, il file 2 che ho potuto aprire con xpdf, un visualizzatore di pdf veloce e open source. Immagino che non sia in grado di gestire i moduli, ma per puro testo e grafica lo preferisco per i suoi tempi di avvio rapidi.


1
La domanda non riguardava "l'apertura" dei PDF o "l'apertura con tempi di avvio rapidi". Invece, si trattava di non riuscire a copiare frammenti di testo dalle pagine di rendering. Quindi la tua risposta probabilmente è buona, ma non si adatta a questa domanda.
Kurt Pfeifle,

-2

Purtroppo non può essere aiutato. I documenti PDF in realtà non contengono lettere, ma contengono forme di lettere. In altre parole, invece di leggere una lettera e disegnarla sullo schermo di Adobe Reader come qualsiasi altra applicazione di lettura di PDF semplicemente disegnerebbe la grafica vettoriale codificata nel file.

Tuttavia, alcuni lettori PDF sono dotati di software che consente di analizzare la forma e recuperare il testo utilizzando il riconoscimento del testo. Funziona come se si scansionasse un foglio di testo stampato e si utilizzasse un software come ABBYY FineReader per riconvertirlo in testo, ma a causa della qualità infinitamente alta dei disegni vettoriali sono in genere molto migliori rispetto ai documenti scansionati.

Alcuni documenti possono essere protetti dalla conversione in testo ingannando Adobe Reader. Ad esempio, le lettere possono essere disegnate in diverse forme sovrapposte in modo tale da apparire visivamente uguali, mentre il software di riconoscimento del testo non riuscirebbe a riconoscere il testo. Il tuo documento è un esempio di tale protezione.

Un modo sarebbe quello di stampare il documento in un'immagine e lasciare che il software di riconoscimento del testo lo riconosca. Una risoluzione più elevata per l'immagine migliorerà la qualità. Questo metodo tuttavia non è molto utile.


2
I documenti PDF in realtà non contengono lettere - questo non è vero per la maggior parte dei documenti non scansionati; vedi en.wikipedia.org/wiki/Portable_Document_Format#Text
Arjan

Grazie. Informazione interessante. Ho sempre pensato che non ci siano informazioni sul testo in PDF. Tuttavia sembra che il documento fornito da Alexander non abbia testo incorporato. Oppure è anche possibile che il tipo di carattere utilizzato lì abbia una strana codifica dei caratteri, cioè non corrispondono alla tipica codifica ASCII.
Sergiy Belozorov,

2
Come avrei potuto copiare il testo dal PDF se fosse solo forme? In parte hai ragione: non è rasterizzato nel PDF (a meno che non provenga da una fonte scansionata), ma sono inclusi i dati di testo. Tuttavia, i caratteri sono (di solito) anche incorporati, permettendo al testo incluso di essere reso vettoriale.
Alex
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.