Risposte:
Google Documenti sta ora testando una nuova funzione API che utilizza l'OCR (riconoscimento ottico dei caratteri) su immagini e PDF.
Dal sistema operativo Google :
L'API di Google Documenti verifica una nuova funzionalità che ti consente di eseguire l'OCR (riconoscimento ottico dei caratteri) su un'immagine. Esiste una demo live che illustra questa funzione : puoi caricare un'immagine JPG, GIF o PNG ad alta risoluzione che ha meno di 10 MB e Google Docs estrae il testo e lo converte in un nuovo documento. Google afferma che "l'operazione può attualmente richiedere fino a 40 secondi" e un piccolo test ha dimostrato che il servizio non è ancora affidabile: è lento e spesso restituisce errori.
I risultati sono tutt'altro che perfetti e troverai molti errori, ma il servizio è gratuito e migliora costantemente. Ecco il risultato dell'OCR per questo documento scansionato :
Un documento di Google Documenti può essere esportato in diversi formati, tra cui HTML, OpenOffice e Word:
Secondo la mia risposta su SO a Qualcuno sa un modo per convertire facilmente un PDF in un formato docx a livello di codice :
Converti PDF in SVG (ghostscript lo farà) e importa che ...
... il punto è che mentre Word non incorporerà PDF, incorporerà SVG.
Utilizzare un programma di riconoscimento ottico dei caratteri, ad esempio Omnipage Pro . Supporta PDF come input per i documenti e Word come output.
Puoi anche provare OCRTerminal che offre un servizio gratuito per 20 pagine al mese. Hanno un client Beta Desktop che sembra essere disponibile per l'uso su invito (devi contattarli ed esprimere interesse).