Impossibile copiare il testo da un file pdf

40

Sto usando il lettore di foxit PDF per visualizzare il mio libro di testo. Vorrei copiare il testo dal file pdf in un documento Word, ma non me lo permette. Posso selezionare bene il testo ma l'opzione per copiare il testo non è disponibile. Posso copiare testo da altri documenti ma non da alcuni. C'è un modo per aggirare questa protezione in Windows?

pdf copy-paste copy-protection

— Jonno_FTW
fonte

Vedo che la mia risposta non funziona per te, quindi hai pubblicato una taglia. Se pubblichi da qualche parte un esempio di un simile pdf, lo darò un'occhiata.

— harrymc,

@harrymc: In particolare, stavo cercando di copiare i valori dalla tabella 6.15 di acousticslab.org/papers/VassilakisP2001Dissertation.pdf

— endolith

@endolith: vedi la mia nuova risposta.

— harrymc,

29

Il file pdf è stato probabilmente bloccato contro la copia del testo. Di seguito sono due modi per sbloccarlo:

Se il pdf non è stato bloccato contro la stampa, è possibile stamparlo su una stampante pdf virtuale per creare un file sbloccato. Vedere questo:
"Rimuovi password e sblocca PDF protetto che ha permesso di essere stampato senza conoscere il segreto" .
Se la funzione di stampa è stata bloccata, vedere quanto segue:
"Rimuovi le restrizioni e decodifica i file PDF protetti da password con PDF Unlocker" .

— harrymc
fonte

Puoi vedere se il PDF è bloccato per la copia. Dal menu File, scegliere Proprietà e nella scheda Sicurezza viene indicato se la copia del contenuto è consentita.

— Rob Sedgwick,

Ho provato a stampare il PDF. Il file stampato non consente di selezionare il testo, sembra convertito il testo in immagine.

— queezz

@queezz: il PDF deve contenere le immagini per iniziare.

— Harry

@harrymc Sì, ci sono immagini. Ma il testo viene anche convertito in immagini. L'opzione Google Chrome funziona bene sullo stesso documento.

— queezz

Il tuo primo link si collega a primopdf.com/installers/4.0.1/FreewarePrimo64Setup.exe che è male, non funziona e sembra che tu non lo abbia mai nemmeno archiviato in archive.org. Il tuo secondo link è ok ma si collega a un sito di condivisione di file dfiles.eu/files/7kiqyvswk, tuttavia il file è ok, controllato con virustotal. Ma non è così facile da trovare in quanto ci sono vari collegamenti su quella pagina mydigitallife. È qui che dice "PDF Unlocker è uno strumento gratuito ma di facile utilizzo che può essere scaricato tramite il link qui (versione corrente 1.0.4)."

— barlop

25

Apri il PDF in Google Chrome (trascina e rilascia il file PDF su Chrome).
Stampa la pagina particolare come PDF o apri l'anteprima di stampa.
Ora puoi copiare il testo dall'anteprima di stampa o dall'output PDF. Ma non penso che potresti copiare direttamente la tabella.

— Khaleel
fonte

1

docs.google.com/open?id=0B0U0hneaP_FcYWprOFpEbTVqdkk Guarda il mio risultato.

— Khaleel,

4

Questo funziona anche per me. Questo è il metodo più semplice che vedo qui.

— endolith

3

Assolutamente brillante. Oh, puoi trascinare i file sulla barra delle schede di Chrome per aprirli rapidamente, a proposito.

— iono

Nessuno di questi metodi ha funzionato per me in Chrome 53. Forse la scappatoia è stata chiusa?

— Simon East,

11

Sono stato in grado di creare una versione senza DRM del tuo file PDF utilizzando Ghostscript (che è disponibile per Windows).

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=stripped.pdf VassilakisP2001Dissertation.pdf

Il file risultante stripped.pdfpuò essere caricato in Adobe Reader e Reader ti consentirà felicemente di copiare qualsiasi parte di esso desideri. Conserva anche la maggior parte della formattazione della tabella.

— Michael Hampton
fonte

È brillante. Il mio commercialista si rifiuta di fornirmi PDF non DRM, né la password per rimuovere DRM. Questo risolve il mio problema. Lavoro eccellente!

— kevinarpe,

Se il PDF ha una password, assicurati di includere l' -sPDFPasswordopzione ( -sPDFPassword=password).

— Palswim,

2

Sono stato in grado di copiare correttamente la tabella dal tuo file PDF usando Okular (per Linux; parte di KDE). Per fare questo, ho dovuto andare nelle impostazioni di Okular e deselezionare "Rispettare le restrizioni DRM".

Sono consapevole che questo non ti aiuta molto dal momento che stai utilizzando Windows, ma è una possibilità se hai una macchina Linux a portata di mano o sei disposto a installarla.

Purtroppo era un testo semplice senza formattazione, ma sembra che non dovrebbe essere troppo difficile ricreare la tabella. Puoi vedere i risultati della mia avventura copia e incolla qui .

— Michael Hampton
fonte

Ecco a cosa serve VirtualBox. : DI può anche copiare il testo normale senza formattazione, ma selezionando una colonna alla volta è piuttosto facile da esportare.

— endolith,

Sembra che questo sia il migliore per le tabelle di numeri, poiché Okular ti consente di fare una selezione rettangolare di testo ed estrarre una singola colonna in ordine.

— endolith

Per colonne singole, probabilmente così. Per l'intera tabella, vedi la mia altra risposta .

— Michael Hampton,

Si noti che Okular può essere eseguito su Windows. In effetti, molti software KDE possono essere eseguiti su Windows .

— Bakuriu,

1

Puoi usare GT Text è un programma che traduce immagini (anche pdf snapshot = immagine) in testo. È possibile selezionare l'area e copiarla negli Appunti È gratuita

La home page ufficiale è http://gttext.googlecode.com

— David
fonte

1

se la copia è disattivata, come ora è dubbio per te, il PDF è "bloccato", può essere letto ma ti impedisce di copiare / incollare qualsiasi cosa da esso.

Questo sito web sbloccherà un PDF

https://smallpdf.com/unlock-pdf

— barlop
fonte

0

Se stai solo cercando brevi frammenti, puoi spesso digitare alcune parole in google tra virgolette e trovare la citazione esatta già scansionata in qualche altro formato o digitata da qualcun altro.

Un'altra opzione è "Document from Photo" nell'app Google Docs per Android, che inserirà il testo tramite OCR. Questo è soggetto a errori, ovviamente.

Vorrei che la funzionalità di blocco PDF non fosse mai esistita. :(

— endolith
fonte

0

Risposta all'endolito:

Il tuo PDF è protetto contro la copia, ma non è protetto contro la stampa.

Quindi ho stampato una pagina contenente la tabella 6.15 in un altro PDF che non è protetto contro la copia, selezionato e copiato la tabella, quindi incollato in Word. Con mia grande sorpresa, il risultato della pasta fu una totale spazzatura.

Ho ora dato un ulteriore sguardo a questo tavolo e ho trovato un risultato molto sorprendente: questo non è un tavolo!

In realtà è un montaggio di piccoli pezzi di testo, posizionati sulla pagina in modo da sembrare una tabella. Ma questo non è un vero tavolo.

Il meglio che puoi fare è riscrivere l'intera cosa come una tabella o semplicemente usare nel tuo lavoro uno screenshot di questo testo assemblato simile a una tabella.

Ecco il mio screenshot della tabella, tratto dal mio documento pdf di una pagina generato :

Immagine

— harrymc
fonte

Ho provato a stamparlo con 2 programmi, ma ho ottenuto solo una pagina vuota.

— endolith,

Usando Foxit Reader , mi sono posizionato sulla pagina, quindi ho stampato la pagina corrente su una stampante pdf (ho usato Cute Pdf Writer ). Cercherò di analizzare il problema copiando il tavolo questa sera,

— harrymc il

Ho provato PrimoPDF e qvPDF (che utilizza GhostScript)

— endolith il

Vedi la mia aggiunta sopra.

— harrymc,

... Ho anche caricato il mio pdf di una pagina qui (tempo di attesa 60 secondi).

— harrymc,

0

Un'altra possibilità è Evince .

In Windows , sembra supportare la copia per impostazione predefinita.

In Linux, la copia può essere abilitata controllando l' override_restrictionsimpostazione se non lo è già, seguendo queste indicazioni ( dconf-editor→ /org/gnome/evince→ override_restrictions).

— endolith
fonte

0

Questo è riuscito a convertire il testo di base. Si riempiva di tavoli però.

http://www.onlineocr.net/documents

— Rob Sedgwick
fonte