Il PDF ha confuso il testo quando si incolla la copia


23

Sto cercando di copiare e incollare il testo da un file PDF.

Tuttavia, ogni volta che incollo il testo originale è un enorme casino di personaggi confusi. Il testo è simile al seguente (questo è solo un piccolo estratto):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

L'ho provato su entrambi i lettori Adobe e Foxit PDF. Ho fatto un "Salva come testo" in Adobe Reader e il file di testo risultante è lo stesso testo confuso.

Qualche idea su come posso ottenere questo testo senza confusione? (Oltre alla digitazione manuale ... c'è molto testo da estrarre.)


Prova alcune utility per l'utilità per la lettura dello schermo (che funziona con jpeg, crea una schermata di stampa e il gioco è fatto) o qui è un modo diverso . (Solo una "supposizione", non mordermi per questo. Ho usato la prima via allora. Spero che ci siano modi più convenienti).
Shiki,


Posso anche confermare questo problema con OS X, almeno a partire dal 10.8.2. Ho trascorso un po 'di tempo a esaminare la struttura del file PDF, ma sfortunatamente non riesco a vedere alcun modo per riparare il danno. "PreFlight" di Acrobat Pro segnala problemi con il file quando lo confronta con lo standard PDF / A e il rapporto di Inventory mostra i glifi che vengono mappati su caratteri Unicode chiaramente errati. Ho sollevato una segnalazione di bug con Apple - ID 12655651. Riporterò qui se / quando ricevo aggiornamenti.
KenD,

Potrebbe essere utile superuser.com/a/481510/153937
Ankit il

Risposte:


11

Il modo più semplice per aggirare il problema è aprire il file in una versione recente di Google Chrome con plug-in di lettura PDF incorporato . Quindi puoi utilizzare la funzione di ricerca di Chrome per trovare il testo e il copia e incolla funziona correttamente.

Vorrei votare il commento di Pipitas sulla risposta di Shiki, ma non ho i meriti :( Il problema potrebbe essere la codifica dei caratteri personalizzata, non la crittografia . In Acrobat, fai clic su File -> Proprietà, quindi fai clic sulla scheda Caratteri per visualizzare la codifica e la scheda Sicurezza per vedere se è crittografato.


In effetti, la codifica dei caratteri personalizzati è stata la causa per me. Tuttavia, Chrome non era la soluzione. Ho risolto parzialmente il problema con Ghostscript rigenerando un PDF dal PS (sono stato fortunato ad avere la fonte PS). Qualsiasi gruppo di caratteri a cui LaTeX applica le legature (ad es. Ff, c, fi, ecc.) Non viene visualizzato nel testo copiato del PDF, che richiede alcune modifiche durante la copia / incolla.
Fuhrmanator,

1
Stesso problema con Chrome
JinSnow il

4

Ho scoperto questo problema con i PDF che ho creato e credo di aver rintracciato l'origine del problema: usare l'anteprima di Mac OS X per ridurre le dimensioni del file PDF.

Avevo creato alcuni filtri al quarzo usando l'utilità Colorsync per comprimere le immagini nei PDF per ridurre la dimensione complessiva dei file PDF con le immagini. Come descritto qui: http://www.macosxhints.com/article.php?story=20031106133852693

Ho scoperto che sono in grado di copiare e incollare facilmente il testo dal file PDF originale (non compresso), ma dopo aver eseguito quel PDF attraverso un filtro Riduci dimensioni file che ho creato, il PDF compresso risultante non copia incolla chiaramente (esce come le stringhe che hai pubblicato).

Tuttavia, eseguendo lo stesso PDF originale tramite la funzione Documento> Riduci dimensione file di Adobe Acrobat Pro, il PDF compresso risultante può copiare e incollare correttamente il testo.

Quindi, questo non è del tutto utile nel tuo caso, presumendo che il tuo file PDF sia stato ricevuto da altrove e non puoi arrivare alla versione originale, se effettivamente è stato compresso in qualche modo. Ma questa potrebbe essere la spiegazione - che il file è stato alterato in qualche modo nel tentativo di ridurre le dimensioni del file.

Questo potrebbe essere utile per i creatori di contenuti che incontrano problemi simili nel copiare e incollare il testo dai PDF: fai attenzione usando i filtri OS X Quartz per ridurre i tuoi PDF!

--edit-- Ho notato anche questo problema durante la combinazione di PDF con Anteprima. I due PDF di origine possono essere copiati e incollati correttamente, ma quando si trascina una pagina da un file all'altro file, quindi si salva il PDF combinato, il testo nel documento combinato non può essere copiato / incollato. Questi sono due documenti entrambi generati contemporaneamente con Filemaker Pro 11 su Mac: non posso immaginare che avrebbero codifiche diverse o cose del genere.


Ho ricevuto alcuni file pdf da un utente mac os. Seleziona va bene, ma copia e incolla ti darebbe semplicemente spazzatura. Prova un sacco di convertitori da pdf a word, tra cui googledoc, adobe salva come testo, tutti danno testo confuso.
Tigr

Sospetto che la riduzione del PDF di OS X sia il colpevole. Qualcuno là fuori a conoscenza di alcun mezzo per "annullare" tale operazione? Grazie!
Tigr

Ho stampato il file pdf su diverse stampanti (virtuali) e ho gonfiato file pdf di dimensioni 4x. Il file stampato appare come immagine, non è possibile effettuare la selezione del testo, mentre l'originale può essere selezionato (confonduto).
Tigr

4

C'è un altro modo molto semplice per risolvere il problema :)

Basta stampare il documento utilizzando CutePdf, la stampante Adobe 2 Pdf o qualsiasi altra cosa simile. La linea di fondo è che è necessario stampare nel formato pdf.

In molti casi rimuoverà facilmente il problema.


2

Soluzione che ha funzionato per me:

  • Carica il documento su Google Drive / Documenti
  • Google lo importerà (a partire dal 2013) come PDF
  • Apri la vista PDF e scegli Archivio > Apri con > Google Documenti
  • Ci vorrà circa un minuto per esportare il documento

I risultati non sono stati perfetti, ma mi hanno permesso l'80% del percorso e mi hanno fornito abbastanza testo da non dover riscrivere tutto!


2

RISOLTO: (ha funzionato per me su Windows 8, Acrobat XI, Office 2010)

Opzione 1:

  1. Stampa da Acrobat utilizzando "Microsoft XPS Document Writer" L'output è: "il tuo nome file.oxps"
  2. Apri "... oxps" con XPS Viewer. * (vedi link di download nei commenti qui sotto)
  3. Stampa su PDF (Acrobat PDF o CutePDF), utilizzando la massima risoluzione (600 DPI).
  4. Apri con Acrobat e utilizza l'opzione OCR (Immagine ricercabile (esatta)).

BINGO!

Commenti:

  • L'uso della massima risoluzione e dell'immagine ricercabile (esatto) salverà il testo senza perdere il suo aspetto pulito. La bassa risoluzione renderà il tuo testo leggibile, ma dall'aspetto scadente.
  • Scarica Microsoft XPS (file): http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • Se non sai cosa sia l'OCR, o dove trovare l'immagine ricercabile (esatta) o come stampare utilizzando "Microsoft XPS Document Writer", PER FAVORE, cercalo su Google da solo, per le tue migliori esperienze.

* Scarica solo se non hai XPS installato.

Opzione 2:

Fai simile, ma salva come immagine (png, tiff, ...), quindi dovrai ricomporre tutte le pagine in un unico file "PDF".


1
I passaggi 1,2 e 3 sembrano molto lunghi quando si può semplicemente saltare al passaggio 3 Stampa su PDF. (Ad esempio dall'interno del tuo lettore PDF). Non è necessario deviare tramite XPS.
Hennes,

@Hennes Facendo il passo 4 si ottiene l'erroreAcrobat could not perform OCR on this page because: This page contains renderable text
Fuhrmanator,

"testo renderizzabile" suona come qualcosa che deve ancora essere disegnato (renderizzato). Possibile che sia già stato fatto e archiviato come bitmap compatibile con OCR se si passa tramite XPS. Ma quella è solo una congettura.
Hennes,

1

Esiste il rischio che le informazioni non siano affatto recuperabili. I documenti PDF sono essenzialmente un documento sovrastante un altro, un semplice testo, l'altro un'immagine. Quando copi e incolli dal documento, contrassegni il testo mentre guardi l'immagine, ma ciò che viene copiato negli appunti è il pezzo corrispondente della parte di testo.

A seconda del modo in cui viene creato il documento, la qualità e la disponibilità della parte di testo possono differire notevolmente. Se si salva un documento di elaboratore di testi in formato PDF, utilizzando Acrobat, Word, un driver di stampante PDF o qualsiasi altro metodo, la qualità sarà in genere eccellente, poiché il file di testo può essere creato dal testo dell'originale. Alcuni caratteri speciali possono risultare distorti, ma il testo normale di solito va bene.

Se il documento viene creato da un'immagine scansionata, tuttavia, la parte di testo viene in genere creata dall'elaborazione OCR dell'immagine, il che può produrre risultati piuttosto spiacevoli, soprattutto se l'originale non è ottimale per lo scopo.

Un programma errato utilizzato per creare il PDF, o impostazioni errate, potrebbe anche far confondere completamente la parte di testo, così come, evidentemente, alcuni tipi di crittografia eseguiti sul file dopo che è stato creato.

La linea di fondo è che se la parte testuale del documento è davvero pessima, non c'è modo di migliorarla. La soluzione migliore sarebbe quella di rimuovere del tutto la parte di testo e far ripetere il processo OCR al programma. Penso che potrebbe essere fattibile all'interno di Acrobat, ma non ne sono del tutto sicuro.


1

Una possibile ragione di ciò potrebbe essere che l'incorporamento dei caratteri nel PDF stava usando una codifica personalizzata, che non viene applicata correttamente quando si copia il testo dal PDF.

Puoi applicare diversi metodi per salvarti dalla digitazione manuale di tutto il contenuto.

  1. Hai provato ad estrarre il testo con uno degli strumenti 'pdftotext.exe' scaricabile in tutta la 'rete? (Consiglierei quello incluso in ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
  2. L'ultima versione di Acrobat Reader ha un'opzione "Salva come testo ..." . Questo non usa "copy'n'paste" (che ti ha dato il testo confuso), ma probabilmente usa le stesse routine software usate per il rendering del testo sullo schermo e può quindi produrre risultati più utilizzabili.
  3. Se "2." non funziona e se hai accesso ad Acrobat Professional: prova a ri-distillare il PDF usando uno dei profili Distiller che incorporano i caratteri.
  4. Se "3." non funziona, nonostante tu abbia accesso ad Acrobat Professional: prova a ri-distillare il PDF, ma questa volta dovresti usare l'opzione 'stampa come immagine' (disponibile tramite il pulsante 'Avanzate' nell'angolo in basso a sinistra della stampa principale dialogo). Assicurati di utilizzare 600 dpi (anche se ciò può produrre un file enorme). Il PDF risultante viene quindi riaperto in Acrobat Pro. Ora applica l'algoritmo 'OCR' di Acrobat al file, che risulterà in un testo incorporato (non usato per il rendering sullo schermo nel Reader, ma usato per cercare ed evidenziare le stringhe). Ora puoi provare di nuovo ad estrarre il testo da questo PDF, usando uno dei metodi sopra discussi.

Per me, usare Acrobat Pro XI per ristampare in PDF, ma con "Stampa come immagine" selezionato (a 600 dpi) nel pulsante Avanzate / finestra di dialogo secondaria dalla finestra di dialogo Stampa ... era il trucco. Quindi puoi finalmente OCR il risultato correttamente . Nessuna delle altre soluzioni menzionate in questa pagina ha funzionato. Nota: per un documento di grandi dimensioni questo potrebbe richiedere del tempo e il risultato potrebbe essere piuttosto grande.
Glenn Slayden,

@GlennSlayden: Sono contento che il mio consiglio abbia funzionato per te ... Cosa mancava nel fatto che pensavi che non meritasse ancora un voto?
Kurt Pfeifle,

Ho votato. Viene ancora mostrato per me come "1". La mia unica lamentela era che la tua risposta era in fondo e mi ci è voluto un po 'per trovarla (non è colpa tua ...)
Glenn Slayden,

Ok, @GlennSlayden, allora quel voto deve essere stato parecchio tempo fa (molto prima del tuo commento sopra).
Kurt Pfeifle,

No, ho votato "12 ore fa" nello stesso momento in cui ho scritto il commento ... Vedo ancora una freccia blu che (credo) significa che il mio voto è (l'unico) voto attualmente registrato. E ricordo che era "0" prima di votare la scorsa notte.
Glenn Slayden,

1

Uno dei miei utenti ha appena segnalato lo stesso problema (il PDF è stato creato con Distiller per Windows), che il testo copiato è solo testo confuso e non è riuscito a cercare all'interno di un documento. Ho provato sul mio Mac e non ho riscontrato alcun problema. Si è scoperto che ho usato l'applicazione Anteprima di Apple, mentre ha usato Adobe Reader sul suo computer Windows. Poi ho provato Adobe Reader sul mio Mac e ho riscontrato lo stesso effetto. A me sembra che:

  • Adobe Reader sta eseguendo la codifica e la ricerca nel testo salvato.

  • L'anteprima di Apple copia e cerca dopo aver applicato il vettore di codifica.

Non posso dirlo con certezza, ma spiegherebbe la mia osservazione. E in effetti consentirebbe di creare tutti i tipi di codifica quando si salvano file combinati / ridotti come descritto in un altro post qui: con Anteprima è ancora possibile ottenere di nuovo il testo.

Innanzitutto ho pensato che sarebbe stato più logico codificare il sottoinsieme di font incorporato come voci contigue invece di lasciare buchi all'interno e utilizzare la posizione del carattere originale. Ma poi ho capito che usando un vettore di codifica nel sottoinsieme di caratteri con voci originali, i caratteri che vengono spesso usati possono avere meno bit impostati su 1 nel loro byte e possono essere compressi in un modo migliore (potrebbe abbassare la entrophy del testo generale in questo modo).


1

Caricalo su Google Documenti e Usando l'opzione Visualizza> HTML semplice , il testo copiabile del testo è corretto all'80% circa con alcuni spazi mancanti.

Questo thread con risposta accettata allo stesso problema spiega questo con un esempio funzionante.


1

Non ho provato l'opzione Google Documenti in quanto non è ancora supportata nel mio ufficio. Tuttavia, stampando il file su "ScanSoft PDF Create!" da "Acrobat 9" (stampa l'intero file sull'immagine) e aprendo il file stampato in "Nuance PDF Converter" (mi ha chiesto se volevo rendere il file di immagine ricercabile e modificabile, a cui ho optato), sono stato in grado di avere un documento Word da cui posso facilmente copiare e incollare. Non è perfetto anche se con solo circa l'80-90% di precisione. Ma hey, hai ancora il file PDF originale da confrontare e compensare quelle parti che non possono essere riparate. Risparmia tempo dalla digitazione del tutto. Il mio 2c.


0

Ho realizzato alcuni PDF con testo modificabile con una vecchia versione di Scansoft PDF Converter per Windows XP, quindi ho combinato le pagine nel programma Anteprima di Mac. Per ciascuna delle pagine separate, ho potuto cercare, copiare ed esportare il testo correttamente da Adobe Reader sul Mac. Se combinati con Anteprima e salvati come un unico file, tutto appariva bene sullo schermo, ma solo pochi passaggi erano ricercabili / esportabili correttamente. Quel problema mi ha portato qui.

I post qui mi hanno dato alcuni buoni suggerimenti (grazie!). Ho esaminato le proprietà del file per i caratteri. I file a pagina singola di Win XP (dove tutto va bene) dicevano che la codifica era ANSI. Il file combinato in Anteprima (dove il testo copiato è confuso) mostrava la codifica per la maggior parte dei caratteri come "Incorporata" con alcuni come "Romani".

La soluzione al mio problema era sempre sotto il naso: lo stesso programma Scansoft può combinare file. Quando ho usato il combinatore di Scansoft e ho aperto il file sul Mac, tutti i caratteri sono stati mostrati come codificati ANSI e tutto il testo è stato esportato / copiato perfettamente. Perché sulla terra non li ho combinati in PDF Converter in primo luogo, non lo so. Grazie, poster!

Lo stesso vale per l'apertura dei file su un sistema Linux.

So che questo non spiega i problemi solo di Windows - a meno che il PDF non abbia origini miste simili?

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.