Come copiare il testo da un PDF senza perdere la formattazione?


41

Quando copio il testo da un file PDF e lo inserisco in un editor di testo, questo viene modificato in vari modi. La formattazione come grassetto e corsivo va persa; le interruzioni di riga in un paragrafo del testo vengono convertite in interruzioni di riga; i trattini per spezzare una parola su due righe vengono conservati anche quando non dovrebbero esserlo; e le virgolette singole e doppie vengono sostituite con? segni.

Idealmente, vorrei poter copiare il testo da un PDF e convertire la formattazione in codici HTML, "virgolette intelligenti" convertite in "e" e le interruzioni di riga eseguite correttamente. Esiste un modo per farlo?


2
Word 2013 può aprire PDF. Non perfetto. Ma fattibile
pratnala,

Potrebbe essere correlato: superuser.com/a/455278/13787
Steven R. Loomis

Risposte:


54

Innanzitutto, devi capire cos'è un PDF. I PDF sono progettati per imitare una pagina stampata e sono progettati solo come formato di output, non come formato di input. un PDF è fondamentalmente una mappa contenente la posizione esatta di caratteri (singole lettere o punteggiatura, ecc.) o immagini. Nella maggior parte dei casi , un PDF non memorizza nemmeno informazioni su dove finisce una parola e ne inizia un'altra, tanto meno cose come le interruzioni automatiche rispetto alle interruzioni improvvise per le terminazioni di paragrafo.

(Alcuni PDF recenti memorizzano alcune informazioni su questa roba, ma questa è una nuova tecnologia e saresti fortunato a trovare PDF del genere. Anche se lo facessi, il tuo visualizzatore di PDF potrebbe non saperlo.)

Ad ogni modo, spetta al tuo software implementare una sorta di "intelligenza artificiale" per estrarre semplicemente dalle posizioni dei singoli personaggi cosa è una parola, cosa è un paragrafo e così via. Diversi software lo faranno meglio di altri e dipenderà anche da come è stato realizzato il PDF. In ogni caso, non dovresti mai aspettarti risultati perfetti. Avere il PDF di output non è lo stesso del documento di origine. Molto meglio provare a ottenerlo se puoi.

La soluzione standard al tuo tipo di problema è utilizzare Adobe Acrobat Professional (il costoso, non il lettore gratuito) per convertire i PDF in HTML. Anche quello non otterrà risultati perfetti.

Esiste un software gratuito che può essere utilizzato per estrarre il testo dai PDF con alcune formattazioni intatte, ma ancora una volta non aspettarti risultati perfetti. Vedi, ad esempio, calibre (che può essere convertito in formato RTF), pdftohtml / pdfreflow o il word processor AbiWord (con tutti i plugin di importazione / esportazione abilitati). C'è anche un plug-in di importazione PDF per OpenOffice.

Ma per favore non aspettarti la perfezione con nessuno di questi risultati. Stai andando contro il grano qui. Il PDF non è un formato di input modificabile.


2
un feedback 5 anni dopo: nessun grande miglioramento: ho dovuto convertirlo in HTML (usando acrobat x) quindi inserire ogni riga in una tabella MSword. (Salvare per parola o Excel o txt ha semplicemente rovinato tutto, anche il passato da Chrome non ha funzionato). Sto ancora aspettando un software (molto) intelligente.
JinSnow,

fare clic con il tasto destro del mouse sulla tabella scegliendo anche "copia con formattazione", con i limiti sopra menzionati
JinSnow

1
Poiché questa è la risposta accettata, ti suggerisco di menzionare anche l'opzione (più recente) che pratnala ha scritto nel suo commento: aprire il pdf direttamente da Word 2013. Su alcuni pdf ho provato che ha dato risultati migliori rispetto a tutti i software di cui sopra.
BornToCode

8

Un'altra opzione è scaricare e iniziare a usare il visualizzatore di pdf gratuito, Foxit (è buono). Quindi puoi 'Salva con nome' e scegliere .txt per convertirlo in un file di testo. Ciò manterrà tutta la formattazione. Non so se puoi fare lo stesso in Adobe perché ho smesso di usarlo qualche tempo fa quando mi sono convertito in Foxit.


"Salva come ... testo" ha funzionato per me con diversi visualizzatori di pdf gratuiti.
Jeff,

Uso Foxit e l'ho appena provato, non direi che ha conservato la formattazione. E tutto quello che volevo erano terminazioni di linea decenti e ogni paragrafo come paragrafo.
p

Usando txt perderai tutta la formattazione: caratteri, grassetto, corsivo, colori e, naturalmente, opzioni più avanzate
skan

Foxit Reader ha funzionato benissimo per me
Michael Tranchida,

5

Esiste un ottimo strumento online chiamato Sej-da . Si occupa della manipolazione PDF avanzata. Non è necessario scaricare alcun software. Trattandosi di un nuovo strumento online, è attualmente ancora in versione beta. Ti consente di estrarre testo da un PDF, oltre a fornire una miriade di altre funzionalità PDF

http://www.sejda.com/

Una breve rassegna video delle funzioni sejda è stata fatta il 14 novembre 2012 dalla Revisione 3 e può essere trovata qui:

http://revision3.com/tzdaily/sejda-online-pdf


1
Si potrebbe ancora scaricare lo strumento da riga di comando: sejda.org/download (non penso che permetta di estrarre il testo con la formattazione?)
Arjan

Ho già consigliato Sejda sopra Arjan
Simon

1
Eh? Volevo solo dire: stai dicendo che è uno strumento online, ma puoi anche scaricare la stessa cosa. Inoltre, esaminando ulteriormente: non credo che manterrà la formattazione, come è stato chiesto?
Arjan,

Sono ben consapevole che è stato richiesto il mantenimento del formato, ma se non ci provi non lo saprai mai.
Simon,

Essendo uno strumento gratuito con una vasta gamma di funzionalità e non è nemmeno fuori fase beta, non c'è nulla da perdere, ma provalo. Con il tempo il suo set di funzionalità sarà probabilmente esteso, ma per ora non posso davvero lamentarmi.
Simon,

5

Apri il tuo file PDF con un browser (Google Chrome e Firefox sono testati), quindi copia il tuo testo lì.


Purtroppo questo non ha funzionato per me in Firefox.
Reb

vicino. FF ha mantenuto almeno le dimensioni dei caratteri. Chrome fallì miseramente, nemmeno i feed di linea.
nd34567s32e

A partire dall'ottobre 2019 l'apertura di un PDF in Chrome e la copia / incolla in un editor di testo almeno preserva la fine della linea (ma, purtroppo, non c'è nessuno spazio bianco iniziale sulle linee).
DocOc,

4

È possibile utilizzare Adobe Acrobat Pro per questo.

Per le tabelle: con Acrobat 9/10 esisteva una funzione di selezione delle tabelle. Con Acrobat X puoi semplicemente fare clic su Salva con nome> Foglio di calcolo> Excel. Concatena persino le pagine in un unico foglio di calcolo. Funzionalità eccezionale.

Per il testo: esiste una funzione simile per l'esportazione in MS Word. Salva come> Parola> Word Doc.

fonti:


0

Foxit commuta tra la visualizzazione del file originale come PDF normale o come testo premendo Ctrl + 6 (Con un po 'di armeggi con il livello di zoom della modalità testo non c'è molto salto avanti e indietro tra la lettura e la copia)


0

Ho trovato questo molto utile ( Rimuovi interruzioni di riga ):

Ecco un trucco utile per risolverlo rapidamente senza dover rimuovere manualmente tutte le interruzioni di riga. Fondamentalmente, tutto ciò che fa è sostituire automaticamente tutte le interruzioni di riga indesiderate con un singolo spazio, facendo sì che tutto il testo venga eseguito insieme in un singolo paragrafo:

1- copia il testo che desideri dal PDF.

2- incollare in un nuovo documento di Word.

3- fare clic su "Modifica", quindi "Sostituisci"

4- assicurati di essere nel campo "trova cosa"

5- fare clic su "altro", quindi su "speciale"

6- selezionare "segno di paragrafo" (in cima all'elenco)

7- fare clic nel campo "Sostituisci con"

8- premere una volta la barra spaziatrice

9- fai clic su "Sostituisci tutto"

10- fare clic su "OK", quindi chiudere la casella "Trova e sostituisci".


-1

È possibile copiare da Adobe Reader in MS Excel e formattare (tabella) nel modo desiderato, quindi copiare e incollare da Excel. Questa soluzione funziona alla grande. Non è necessario acquistare costose copie professionali di Adobe.


La domanda discute il testo. Pensi che questa sarebbe una buona soluzione generale per il testo, inclusa la conversione della formattazione in codici HTML?
fixer1234,

-1

Stavo cercando di salvare il testo e il formato di un pdf organizzato in una tabella. In Acrobat Professional, ho capito che esiste un'opzione 'Salva con nome' che consente di salvare come documento Excel. Questo ha funzionato bene per le mie esigenze. Ho anche notato che esiste anche un'opzione per il documento Salva come Word. Non l'ho provato però.


2
Questo duplica la risposta dell'utente 156787.
Fixer 1234
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.