Come convertire pdf in formato eBook


8

Esiste un modo per convertire un documento PDF in un formato eBook come epub, azw o mobi? Sto cercando un'applicazione, che è veloce nella conversione. Ho appena provato Calibre. Dopo 10 minuti non è stato raggiunto nemmeno il 2% della conversione. Quindi, per favore, non calibro. La CLI è preferita.

Risposte:


6

Dovresti provare pdftotext(rientra in Ubuntu nel pacchetto poppler-utils). È un convertitore da riga di comando. Presuppone che il PDF contenga testo e non sia costituito solo da immagini.

Se il file PDF è costituito da immagini (senza informazioni OCR), devi scegliere una soluzione OCR, che è molto più lenta.

Ho usato con successo il metodo OCR anche sul testo PDF che è stato mescolato (posizionando i singoli caratteri su una pagina in modo non lineare). Quindi si utilizza ad esempio pdftoppmper ottenere singole immagini delle pagine e OCR quelle.


6

In genere utilizzo Calibre per la conversione da vari formati (epub, mobi e pdf). È abbastanza semplice convertirlo con esso, ecco uno screenshot, ce ne sono altri e anche un tutorial video .

immagine dello schermo

   ss di calibro


3
Quale parte di "Please No Calibre" non è chiara?
mlp,

5
Quando rispondi alle domande su qualsiasi sito SE stai assistendo sia l'OP che chiunque trovi questa discussione di domande e risposte in futuro. Questa risposta ha lo scopo di coprire tutte le basi per quegli individui. Anche Calibre potrebbe essere l'opzione migliore, forse l'OP aveva una versione difettosa O era configurato male. L'ho usato decine di volte e fa un ottimo lavoro di conversione.
slm

Non sono in grado di convertire il file pfd in epub in un layout fisso. Potresti dirmi quali sono i passaggi da seguire per convertire un pdf in epub in un layout fisso.
Mohan Rathour,

1

Ho dovuto farlo una volta per un file PDF, e questo è stato il risultato (usando pdftohtml da poppler):

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

Alimenta lo zip in Calibre e convertilo in EPUB. Filtra tutte le proprietà CSS (come colori, caratteri).

Ogni file PDF è diverso: non esiste una soluzione definitiva. Quanto sopra ha funzionato per un caso specifico: devi indebolire pdftohtml / pdftotext e quindi modificare l'output per adattarlo alle tue esigenze.

Se fallisce e devi ricorrere all'OCR, ho avuto un po 'di fortuna con il cuneiforme. Ma prova anche a tesseract, ocrad, gocr. Tuttavia, tutti richiedono lavoro manuale per un buon risultato.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.