In che modo vengono visualizzati meno PDF?


52

Ho provato diversi programmi: pdftotext, pdf2txt.py, ... Tutti possono estrarre testo da PDF, ma quello che sta facendo il lavoro migliore è buono o vecchio less: il testo dal PDF ha un layout adeguato. Come sta facendo di meno? Utilizza una libreria o l'elaborazione PDF è integrata?

Lo sto chiedendo perché vorrei utilizzare questa funzionalità a livello di codice, senza dover necessariamente eseguire meno come programma esterno (sto facendo Python).

Il mio sistema è:

» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman

less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less

» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

Risposte:


63

La tua distribuzione sta probabilmente usando lo lesspipe.shscript popolare . Controlla la LESSOPENvariabile d'ambiente.

Questo script esiste in molte varianti. Sto guardando la versione di Gentoo. In esso troverai la seguente riga:

*.ps|*.pdf) ps2ascii "$1" || pstotext "$1" || pdftotext "$1" ;;

Ciò significa che proverà quei comandi nell'ordine visualizzato. $1è il nome del file.

Un'altra versione utilizza il seguente comando:

pdftohtml -stdout "$t" | parsehtml -

15
Grazie, si scopre che sta usandopdftotext -layout $1 -
dangonfast il

@ jeckyll2hide Hai trovato la spiegazione per i risultati migliori con meno?
vvy

@vvy Probabilmente l' -layoutinterruttore. ;)
Daniel B,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.