Pratica soluzione OCR per convertire un libro di grandi dimensioni in un formato digitale?


12

Sono stato al posto di mio nonno lo scorso fine settimana. Mia nonna tirò fuori questo libro gigante (circa 1400 pagine) della sua storia familiare risalente al 1630 circa. Nerd gigante che sono, ho pensato che sarebbe stato saggio avere tutte le informazioni archiviate in un database e disponibili sul web. Sono in grado di gestire tutta la programmazione Web e le espressioni regolari e cosa no, ma ciò che non conosco è il modo migliore per ottenere il testo dal libro al computer.

So che sarà necessario un qualche tipo di OCR, dalla piccola ricerca che ho fatto, sembra che le mie opzioni siano:

  1. scattare una foto di ogni pagina con una fotocamera, quindi elaborare le immagini con il software OCR
  2. utilizzare uno scanner per scansionare ogni pagina, quindi elaborare con il software OCR
  3. usa una specie di dispositivo portatile, come questo .

Qualcuno ha qualche idea sul modo migliore per affrontare questo problema? Non voglio distruggere il libro, perché per quanto ne so, non può essere sostituito. Questa è probabilmente l'unica volta in cui eseguirò la scansione di un libro di grandi dimensioni, quindi non credo di voler spendere più di $ 250 su qualsiasi tipo di dispositivo. Non mi dispiace un po 'di sforzo manuale qui (mi rendo conto che molto probabilmente richiederà mesi), ma mi piacerebbe trovare il metodo più efficiente possibile.

Nota sul libro: ha solo circa 20 anni, quindi è in buone condizioni. È monocromatico e le pagine non hanno iniziato a ingiallire. Dal momento che è così grande, mi preoccupo delle possibili ombre quando il testo si avvicina alla rilegatura.

ocr 

1
Per contro, se il libro ha solo 20 anni e le informazioni risalgono al 1600, dov'è il materiale originale? Potrebbe essere bello catturare anche!
Craig,

Sì, sarebbe anche bello. Vedrò se riesco a rintracciare l'autore originale.

Risposte:


8

Mi sono imbattuto in questo su Lifehacker un po 'di tempo fa, ed è stato uno dei miei primi progetti fai da te da allora.

inserisci qui la descrizione dell'immagine

Sostituisci l'iPhone con qualsiasi fotocamera o imaging e otterrai una bella pila di jpeg ad alta risoluzione pronti per te all'OCR con qualsiasi software, anche (esci!) MS Office ...;)

A buon mercato. Efficace. FAI DA TE. Non puoi battere un'idea come questa.

EDIT: I commenti hanno sollevato alcuni punti su ombre, curling di pagina, ecc. Abbastanza facilmente risolvibili per chiunque abbia letteralmente copiato testi di biblioteche.

Aggiungi più fonti di luce per illuminare il libro ed eliminare le ombre.

inclinare il libro di 90 gradi rispetto alle pagine non piegare verso le rilegature nel mezzo. Conserva anche il legame.

Vedrò se posso fare un esempio e crearne uno da solo.

EDIT 2: campione caricato di come dovresti tenere il libro e notare anche la fonte di luce da sinistra.

inserisci qui la descrizione dell'immagine


È così bello! Vorrei poterlo fare :)
alex,

Tuttavia, hai bisogno di una vera macchina fotografica per farlo, e una buona qualità, o finirai con un'immagine che non puoi sfruttare, specialmente da un libro molto vecchio. Quindi è tutt'altro che economico.
Gnoupi,

Molto interessante. Mi chiedo come funzionerebbe con un libro, considerando le ombre che probabilmente ci sarebbero tra le pagine.

Se le pagine sono piegate o presentano ombre, si avranno problemi a far riconoscere le lettere al software OCR.
alex,

aggiungi più sorgenti luminose per illuminare il libro ed elimina le ombre. inclinare il libro di 90 gradi in modo che le pagine non si pieghino verso le rilegature nel mezzo. È semplice buon senso, lo facciamo sempre al college a scattare foto dei testi delle biblioteche.
Caliban,

3

Da quello che so, ABBYY produce il miglior software OCR, ma non è gratuito. Dovresti provare a utilizzare una versione di prova di ABBYY FineReader , forse ti aiuterà.


1

Dovrai catturare l'immagine in qualche modo. Esistono vari servizi per farlo per te. Avrai anche bisogno di qualcuno che abbia familiarità con il contenuto del testo da correggere poiché l'OCR non è ancora perfetto. Soprattutto con qualsiasi cosa scritta a mano.

Altri stanno discutendo la tua domanda qui: http://ask.metafilter.com/92506/scan-my-books

Alcune aziende lo faranno per te: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html

Alcuni software gratuiti: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html




0

Consiglierei uno scanner piano attrezzato per la scansione di libri o uno scanner per libri interi, come menzionato da Chris.

Se è possibile, ottenere le immagini compilate in un formato TIFF in quanto standard del settore quando si tratta di sistemi di gestione dei documenti.

Per fare OCR, consiglierei tesseract OCR in quanto è il framework esposto da Google per il loro progetto di libri.


0

mentre sembra allettante automatizzare il processo, potresti voler investire un po 'più di tempo e lavoro poiché questo particolare libro è una questione personale. L'OCR farà la maggior parte, ma dovrai correggere le bozze pagina per pagina e confrontarle con l'originale. tieni presente che gli errori dell'autore fanno parte dell'accordo, non correggerli (crea note a piè di pagina se ti senti così incline). prenditi il ​​tuo tempo, non metterti sotto pressione, la scansione dei libri è un lavoro da asino ma la completezza paga e finirai con una bella copia digitale del cronico della tua famiglia. buona fortuna per il tuo impegno :)


in realtà, questo è davvero un buon punto. Non avevo preso in considerazione l'idea di rendere il contenuto originale del libro disponibile in formato digitale, ma fintanto che lo avrò, potrei anche fare una versione .pdf.

perché PDF? pensa HTML. e potresti anche conservare le scansioni originali anche se finirai con un'enorme quantità di dati.

La mia idea era quella di avere tutte le informazioni di nascita / stirpe in un database, in modo da poter realizzare un frontend Web che facilitasse la navigazione / ricerca / aggiornamento. Ho intenzione di lavorare su eventuali errori di battitura di quella versione. Inoltre, ho alcuni cugini che non ci sono e sarebbe bello aggiungerli. Stavo pensando a pdf perché sarebbe bello avere qualcosa che assomigli al libro originale con i numeri di pagina originali e così intatto. Quella versione lascerei da solo e manterrei tutti gli errori di battitura dal libro.

0

Al lavoro utilizziamo uno scanner per libri Plustek Optibook 3600 che costa circa $ 250 .
È fondamentalmente uno scanner a letto piano standard ma con la lastra di vetro che va dritta al bordo dello scanner in modo che la pagina del libro possa essere posizionata piatta sulla lastra. Questo elimina l'ombra della colonna vertebrale ed evita di danneggiare libri.

inserisci qui la descrizione dell'immagine


Hai mai provato a usarlo con un libro davvero denso? È spesso 3 pollici.

Se riesci ad aprirlo di 90 ° con la pagina ragionevolmente piatta, dovrebbe andare bene. Prova su un bordo del tavolo.
pelms,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.