Testo fisico in testo digitale


9

Consentitemi innanzitutto di aggiungere il prefisso a questa domanda, non ho idea di quale sito StackExchange sarebbe più appropriato per questa domanda, ma ho pensato che LifeHacks potesse funzionare ...

Nel 1998 la famiglia di mia madre ha avuto una grande riunione di famiglia (la mia bisnonna aveva dieci figli, quindi è stata davvero una grande riunione). Uno dei miei lontani zii ha scritto una sorta di libro sulla storia delle nostre famiglie per questa riunione e mia mamma mi ha dato il libro da leggere. Non riuscivo a credere quanto fosse grande e quanta ricerca ci fosse nel libro. Mi piacerebbe trovare un modo per ottenere l'intero libro su un sito Web che farò dove poterlo condividere con tutti i membri della nostra famiglia e alla fine preservare la storia più a lungo di quanto questo fragile libro possa fare.

Nella speranza di non dover digitare parola per parola questo intero libro di 300 pagine c'è un modo in cui posso semplicemente scansionare le pagine e inserirle in testo digitale? Ovviamente potrei semplicemente scattare foto e creare il sito Web usando le immagini, ma penso che sarebbe più utile averlo come testo reale perché potrebbe apparire meglio nelle ricerche di Google quando qualcuno cerca un nome di famiglia o qualcosa del genere. Inoltre, se qualcuno in famiglia fa forse un progetto di ricerca sulla nostra famiglia, sarebbero in grado di copiare parte del testo e di consultarlo più facilmente.

Qualcuno conosce il modo migliore in cui posso inserire questo vecchio libro di famiglia nel testo digitale?

Prenota la prima pagina

Libro che indica lo spessore

Risposte:


14

Utilizza un telefono Android e la funzione " Google Lens " recentemente aggiunta all'app foto e alla revisione della foto della fotocamera.

L'OCR tramite Google Lens è piuttosto sorprendente e preciso al di là di qualsiasi software OCR che abbia mai usato.

Di seguito sono riportati alcuni screenshot che delineano la procedura utilizzando un Nokia 3 economico (100 USD) , il miglior telefono che ho avuto il piacere di usare da quando il mio amato Nexus 4 ha rinunciato al fantasma.

Descriverò in dettaglio una scansione OCR di esempio di un libro di etimologie greche stampato nel 1976 che non oso fare a pezzi per la scansione, che sembra avere densità e carattere tipografici simili.

Ho scattato questa foto originale in condizioni di illuminazione non ideali, utilizzando tutte le impostazioni automatiche sulla fotocamera del telefono, quindi non sono state utilizzate tecniche fotografiche pecial o dispositivi per migliorare il risultato, si potrebbe dire che è solo una semplice foto da telefono presa da un dilettante di un pagina del libro . (Assicurati solo che il testo sia focalizzato, nessun OCR decifrerà il testo sfocato sfocato)

inserisci qui la descrizione dell'immagine

Fai clic sull'icona dell'obiettivo di Google, disponibile tramite l'anteprima dopo aver scattato la foto o sulla foto stessa utilizzando l'app Google foto

inserisci qui la descrizione dell'immagine

Ecco -Skynet- ^M^M^M^M^M^MVoglio dire, Google Lens sta facendo la sua scansione magica (i punti sono un po 'inquietanti ma hanno dovuto fare qualcosa per farti sapere che l' IA di Google sta facendo la sua cosa, immagino)

inserisci qui la descrizione dell'immagine

Una volta scansionata l'immagine, troverai le aree di testo che Google Lens ha trovato sull'immagine chiaramente delineate e il loro testo è già stato estratto nella metà inferiore dello schermo. se desideri solo alcune aree e non altre, tocca la tua selezione per attivarle / disattivarle.

Se tocchi il testo estratto, verrà inserito negli appunti per la bontà copia / incolla ovunque sul telefono.

inserisci qui la descrizione dell'immagine

Successivamente, basta incollare il testo su un documento di Google Documenti . Lì puoi: - correggere eventuali errori proprio lì o sul tuo PC, - condividere il documento con il contenuto del tuo cuore, - pubblicarlo come una pagina web con aggiornamento in tempo reale delle tue modifiche, o - esportare in - testo semplice, - documento word , - documento di ufficio aperto, - libro elettronico epub compatibile con kindle con testo di riflusso, o - buon vecchio PDF non DRMd

Si potrebbe sostenere che questa è probabilmente la via più breve per la pubblicazione, con le più ampie scelte di output possibili.

Puoi fare tutto da un unico dispositivo (telefono Android con le app appropriate installate) e farlo in pochissimo tempo con un alto tasso di precisione, praticamente gratis.

Ecco il documento di Google incollato Frammento
inserisci qui la descrizione dell'immagine

Ecco la condivisione URL dei documenti Google, sentiti libero di commentare. Potresti anche avere qualcuno che ti aiuti a modificare il documento in remoto e contemporaneamente.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

Infine, ecco un sito Web di Google Sites pubblicato utilizzando il suddetto documento come fonte collegata

https://sites.google.com/h-lo.me/ocrsample

È https, abilitato per desktop e dispositivi mobili e, a seconda dei gusti, generalmente non irritante. Non male per 15 minuti di lavoro totale e nessuna codifica di sorta.


È rimasto solo un perfezionamento, ovvero creare paragrafi appropriati sul documento Google, poiché Google Lens inserisce un ritorno rigido dopo ogni riga di testo estratto, il che rende ogni riga il proprio paragrafo e questo diventerà un problema se si desidera utilizzare Funzionalità di Google Documenti come il sommario o quando esporti il ​​tuo documento in un libro elettronico e-pub compatibile con kindle (rovina il testo di ridisposizione)

Puoi semplicemente unire ogni riga, se necessario, premendo il tasto backspace su ogni inizio di riga, oppure questo potrebbe essere automatizzato con uno script.

Quindi, sto scrivendo un componente aggiuntivo di script di app che pubblicherò a breve per automatizzare questo processo. Ti farò sapere qui quando avrà finito.


Grande dettaglio. Mi piace questa soluzione gratuita. Grazie!
Kyle Bridenstine,

Il piacere è tutto mio! Potresti già avere tutto ciò di cui hai bisogno! :)
hlecuanda,

Per un libro spesso, questo è un approccio veramente laborioso: devi girare manualmente ogni pagina e poi fotografarlo.
Hobbes,

6

Puoi farlo in più fasi. Inizia mettendo tutto online come scansioni di pagine e aggiornando come e quando puoi. La rilegatura a pettine in plastica cerlox ™ rende facile smontarla e rimetterla nella rilegatura.

Poiché la stampa sembra essere di tipo serif normale nella stessa dimensione, le scansioni possono essere digitalizzate utilizzando il software di riconoscimento ottico dei caratteri. L'OCR può fornirti una bozza di file di testo che puoi correggere e pubblicare sul sito Web per il suo modulo finale.

Allo stesso tempo, è possibile riordinare le immagini e altro materiale pittorico.

Puoi farlo quando il tempo / le risorse diventano disponibili per il progetto.


Simile alla risposta precedente, ma non così dettagliato.
Trajan Espelien,

@TrajanEspelien Quale risposta precedente? Controlla il timestamp. La risposta fu prima, due giorni prima della presentazione di Hiecuanda. :)
Stan

Sì, ma non ha tanti dettagli quanto l'altra risposta, motivo per cui ho accettato l'altro su questo. Non è il primo arrivato, primo server .. è la risposta migliore.
Kyle Bridenstine,

@KyleBridenstine No Kidding! Ho anche votato a favore di Iecuanda. È stata un'ottima risposta A proposito, e se non avessi un telefono Android o non riesci ad accedere a Glass? Ho dato una risposta generica alla domanda. :)
Stan

1
@KyleBridenstine Grazie per le belle parole. Siamo d'accordo. Penso che tu abbia fatto la cosa giusta aspettando. La prima risposta NON è la migliore (a meno che non sia per qualche motivo. Dopo tutto, ci sono delle scadenze.) Ho inviato il link alla tua domanda e l'ottima risposta di Hiecuanda a un collega che deve fare la stessa cosa con un mucchio di documenti scolastici di il Brasile!
Stan,

2

Alcune buone risposte qui per affrontarlo da soli.

Vorrei aggiungere la mia esperienza nel pagare qualcun altro per farlo per te.

Ho usato Digitize My Books nel Regno Unito (io stesso ho sede nel Regno Unito).

Sono stato molto soddisfatto dei risultati: ogni libro viene restituito in formato PDF con testo ricercabile (e copiabile). Viene utilizzata una tecnica PDF standard per cui l'immagine originale per ogni pagina viene mantenuta ma con una sovrapposizione di testo, in modo da poter evidenziare il testo originale sulla pagina. Valore molto buono. Come qualcuno all'estero dal Regno Unito, puoi ancora inviare loro i libri.

Offrono anche un'opzione affinché il libro sia in formato di documento modificabile, a costi aggiuntivi ma molto ragionevoli.

Se non è necessario restituire l'originale, l'opzione più economica sarebbe quella di scegliere la scansione distruttiva. Qui è dove le pagine vengono prese singolarmente dal libro e scansionate. Per impostazione predefinita, il libro originale non viene restituito, anche se credo che tu possa richiederlo, eventualmente a un costo aggiuntivo (ad esempio per le spese di restituzione), ma le pagine saranno sciolte, dopo essere state rimosse per la scansione individuale. La scansione distruttiva è l'opzione che ho scelto per tutti i miei libri e non ho richiesto la restituzione degli originali.

Offrono anche una copia non distruttiva se si richiede l'originale, ma il costo è più elevato. Accettano anche le tue scansioni digitali se hai già digitalizzato un libro da solo: possono trasformarlo in un documento PDF o Word ricercabile, con capacità di copia.

Dai un'occhiata al loro sito web. Penso davvero che questa sia l'opzione migliore: spendere soldi per risparmiare tempo, piuttosto che spendere tempo per risparmiare denaro.

Non lavoro per Digitize My Books, né ho alcun interesse finanziario in essi (azionista o altro).

Inizialmente avevo iniziato a "scansionare" i libri da solo, fotografando usando una fotocamera DSLR (fotografare è più veloce della scansione flatbed) con ogni pagina aperta con una clip per appunti e blu-tak. Ma ho trovato che questo era piuttosto laborioso.

Se sei ancora interessato a farlo da solo, ScanTailor è un'applicazione Windows open source che formatterà, dividerà doppie pagine / coppie di pagine come scansionate in singole pagine, raddrizzarle e "ridurle". In modo che le pagine risultanti appaiano piatte e dritte come desiderato, tuttavia non fa l'OCR: i risultati sono comunque immagini bitmap. Ma almeno va in qualche modo automatizzare in batch riordinando qualsiasi distorsione delle pagine, in particolare della copia non distruttiva in cui è difficile organizzare le pagine in modo che siano completamente piatte per libri di grandi dimensioni.

aggiornato

Aggiunte ulteriori informazioni sulle opzioni di scansione offerte da un servizio. ScanTailor ulteriori informazioni. Correzioni grammaticali.


1

Il modo più veloce per farlo è contattare il tuo parente e vedere se ha ancora i file originali che ha usato per creare quel libro. Dalla foto in prima pagina direi che è stato realizzato su un computer. Converti da {inserire qui il pacchetto di elaboratore di testi molto vecchio} in un formato corrente e il gioco è fatto.

Il secondo modo più veloce per trasformare una risma di materiale stampato in un documento digitale:

  1. Rimuovere la rilegatura.
  2. Taglia il bordo sinistro delle pagine per eliminare i buchi. I fori interferiscono con un alimentatore di documenti.
  3. Scorri il libro e scopri le pieghe e altri danni che potrebbero interferire con un alimentatore di documenti.
  4. Trova qualsiasi stampante duplex ragionevolmente moderna che abbia un alimentatore di documenti e una funzione di scansione. Scansione su PDF.

Quindi utilizzare qualsiasi pacchetto OCR per trasformare le pagine scansionate in un file Word. A questo scopo utilizzo le funzionalità OCR nella versione completa di Adobe Acrobat, ma ci sono molti motori OCR in circolazione.


0

Potresti voler provare un servizio molto economico: preserv-your-memories.info. Quando lo faccio da solo, uso il mio scanner per eseguire la scansione su OmniPage, un programma OCR, e quindi salvare come file pdf che è completamente ricercabile. Dal momento che la tua pubblicazione è rilegata in plastica, è facile smontarla per scansionare singole pagine e poi ricollegarle. Anche scattare foto come indicato nei suggerimenti sopra è molto fattibile, una buona scelta tra molti approcci.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.