Conversione automatica di PDF in formato non leggibile

Ho un amico non vedente e ho un PDF che vorrei fargli leggere.

Il PDF contiene circa 200 pagine di testo dal design accattivante (con alcune immagini e figure contenenti testo, ma quelle sono abbastanza rare da poter essere raccolte con la pulizia manuale). Sfortunatamente, la struttura logica del PDF è rappresentata male: il PDF non è a conoscenza del suo flusso di testo a due colonne e nessuna delle voci dell'indice e della tabella dei contenuti è in realtà collegamenti.

Ho un facile accesso a una macchina Linux e un accesso un po 'meno facile a una macchina Windows XP, e conosco il mio modo di aggirare espressioni regolari e linguaggi di script per automatizzare la processione post.

Finora ho trovato il modo di tagliare il PDF a metà in verticale (usando il codice da http://snipplr.com/view/18924/split-crop-double-page-pdfs-in-two/ , dopo aver convertito il PDF in PDF1.4 in modo da non contenere un crossrefstream o come è stato chiamato), in modo tale che la maggior parte dei contenuti sia nell'ordine giusto e quindi utilizzare pdftohtmlper estrarre il testo con un po 'di markup. Sfortunatamente, questo non è in grado di riprodurre la struttura logica del documento (riconosce alcuni segni in corsivo, ma perde già tutti i titoli di capitoli, sezioni e sottosezioni, che sono sempre evidenziati usando un uso coerente delle dimensioni e del colore del carattere, per non parlare delle interruzioni di paragrafo eccetera.)

Avevo grandi speranze in Calibre , ma anche quello strumento di conversione non può gestire PDF a due colonne mal contrassegnati, e non può nemmeno derivare la struttura dai caratteri usati, sebbene presenti alcuni vantaggi nel tenere insieme i paragrafi.

Come posso convertire il mio PDF in un formato adatto all'accesso da parte di un cieco?

pdf conversion accessibility

— Anaphory
fonte

Non lo so, ma posso suggerire di dare un'occhiata a pdftk, pdfjam, pdflatex ... Buona fortuna.

— Hastur,