Ho un amico non vedente e ho un PDF che vorrei fargli leggere.
Il PDF contiene circa 200 pagine di testo dal design accattivante (con alcune immagini e figure contenenti testo, ma quelle sono abbastanza rare da poter essere raccolte con la pulizia manuale). Sfortunatamente, la struttura logica del PDF è rappresentata male: il PDF non è a conoscenza del suo flusso di testo a due colonne e nessuna delle voci dell'indice e della tabella dei contenuti è in realtà collegamenti.
Ho un facile accesso a una macchina Linux e un accesso un po 'meno facile a una macchina Windows XP, e conosco il mio modo di aggirare espressioni regolari e linguaggi di script per automatizzare la processione post.
Finora ho trovato il modo di tagliare il PDF a metà in verticale (usando il codice da http://snipplr.com/view/18924/split-crop-double-page-pdfs-in-two/ , dopo aver convertito il PDF in PDF1.4 in modo da non contenere un crossrefstream o come è stato chiamato), in modo tale che la maggior parte dei contenuti sia nell'ordine giusto e quindi utilizzare pdftohtml
per estrarre il testo con un po 'di markup. Sfortunatamente, questo non è in grado di riprodurre la struttura logica del documento (riconosce alcuni segni in corsivo, ma perde già tutti i titoli di capitoli, sezioni e sottosezioni, che sono sempre evidenziati usando un uso coerente delle dimensioni e del colore del carattere, per non parlare delle interruzioni di paragrafo eccetera.)
Avevo grandi speranze in Calibre , ma anche quello strumento di conversione non può gestire PDF a due colonne mal contrassegnati, e non può nemmeno derivare la struttura dai caratteri usati, sebbene presenti alcuni vantaggi nel tenere insieme i paragrafi.
Come posso convertire il mio PDF in un formato adatto all'accesso da parte di un cieco?