Alcuni file PDF producono immondizia (" mojibake ") quando si copia il testo (anche se vengono visualizzati correttamente). Questo rende impossibile cercarli (qualunque cosa cerchi non corrisponderà alla spazzatura).
Qualcuno ha una soluzione semplice?
Esempi:
- Manuale TEAC TV EU2816STF (produce problemi di cui sopra in Adobe Reader sia su Windows che su Mac, ma funziona bene in Anteprima su Mac)
- Manuale di Leadtek Winfast PVR2 (collegamento FTP; presenta anche problemi nell'anteprima su un Mac)
- Manuale della scheda di sintonizzazione TV Swann (collegamento FTP; presenta anche problemi nell'anteprima su un Mac)
- Contratto di licenza Phonedisc (dal ormai defunto DTMS )
- Revisione trimestrale del fondo Macquarie IFP
- Libretto per piccole imprese BAN-TACS (versione archiviata)
- Volantino Easterfest 2004 (anche dall'archivio)
Sto usando Adobe Reader (ultima versione) per Windows - forse un visualizzatore alternativo potrebbe aiutare? Sto cercando una soluzione gratuita per Windows. L'open source sarebbe ancora meglio.
Modifica: i documenti per lo strumento Estrai testo multivalente hanno un buon riassunto del perché le cose possono andare storte, tra cui: (documento citato ultima modifica gennaio 2006)
- Il testo potrebbe non avere un mapping Unicode. I caratteri PDF Tipo 3 spesso non lo sono e TeX DVI ha caratteri che non hanno equivalenti Unicode.
- La codifica Unicode potrebbe essere errata. Open Office associa alcuni caratteri allo stesso Unicode, causando la caduta e il raddoppio della lettera apparente.
Immagino che la soluzione definitiva in questi casi sarebbe quella di OCR ogni glifo in un font per capire di che carattere si tratta. Si noti che questo sarebbe più semplice dell'OCR di un documento scansionato rumoroso perché la forma esatta del glifo è disponibile (a risoluzione infinita poiché è un'immagine "vettoriale").
clipbrd.exe
(vedi mydigitallife.info/2008/11/06/… ) puoi vedere cosa c'è negli appunti. Cosa ti dà questo?