Come fan dell'open source (e dell'automazione) odio dirlo, ma i migliori risultati che ho appena ottenuto (su un PDF abbastanza grande e complesso) sono stati aprirlo in Adobe Reader, quindi scegliere File | Salva come testo.
(Sto preelaborando esperimenti di analisi del testo, non come lettore, ma penso che la mia prima e seconda scelta sarebbero le stesse.)
Ho confrontato l'output fianco a fianco. La mia seconda scelta è ebook-convert.
Adobe : lasciato in FF per le interruzioni di pagina, lasciato nei numeri di pagina, non ha convertito intestazioni / paragrafi in righe singole, ma ha trattini fissi. La posta indesiderata nascosta nel PDF non ha ottenuto l'output. Ha ottenuto correttamente le grandi capitali all'inizio delle sezioni, ad esempio "The", non "T he" o addirittura "T he".
ebook-convert : lasciato nei numeri di pagina e alcuni elementi nascosti nascosti nell'intestazione / piè di pagina (ma senza FF). Converte la maggior parte dei paragrafi in linee singole. Quelli che ha mancato sono a doppia distanza! I punti elenco non si allineano sempre al testo. Correttamente ottenuto "The" all'inizio del capitolo.
pdftotext (senza --layout) : non male, i proiettili si allineano, ma il rumore dell'intestazione / piè di pagina. Gli FF sono lì dentro. Trattini rimossi. Peggio per l'inizio del capitolo grandi lettere: "T \ n \ nhe".
pdftotext (con --layout) : simile, ma più rientri. "T he" per l'inizio del capitolo.
pdftohtml >> pdfreflow >> htmltotext : ha rimosso i numeri di pagina, ma è ancora spazzatura nell'intestazione / piè di pagina. "T he" per l'inizio del capitolo. Trattini rimossi. (Utilizza più righe per paragrafo, ma non sono le stesse interruzioni di riga delle altre versioni!)