Evernote esegue l'OCR sulle immagini salvate su di esso. C'è un modo per ottenere l'equivalente del testo completo per un'immagine in Evernote o l'OCR è solo per la ricerca?
Evernote esegue l'OCR sulle immagini salvate su di esso. C'è un modo per ottenere l'equivalente del testo completo per un'immagine in Evernote o l'OCR è solo per la ricerca?
Risposte:
L'API di Evernote ha funzionalità per ottenere testo e rettangolo in cui questo testo è presente all'interno dell'immagine. Vedi http://evernote.com/about/developer/api/evernote-api.htm , controlla "Formato XML dell'indice di riconoscimento Evernote" e le funzioni per recuperarlo. Il problema è che non fanno l'OCR tradizionale ... il loro algoritmo OCR può produrre parole diverse per singola "parola" sull'immagine. Tutto quello per cui lo usano è la ricerca, quindi va bene per loro, ma non va bene per usarlo come motore di riconoscimento. (Anche se ti danno peso per ogni parola alternativa, quindi forse puoi usarlo)
Inoltre, Evernote apparentemente non decide che una determinata immagine equivale esattamente a una parola, ad esempio Evernote non determina che una determinata immagine sia "indizio" e non "dovuta". Piuttosto, traccerà entrambi e una ricerca per entrambi restituirà la stessa immagine. Quindi, non c'è modo di ottenere un equivalente full-text perché Evernote non sta decidendo quale sia il testo completo, ma solo quello che potrebbe essere.
evernote paga una somma decente al creatore del materiale ocr oppure paga una somma decente per mettere insieme qualcosa che funzioni. quindi, dubito davvero che ti permetteranno di ottenere il testo estratto (+ posizionamento sull'immagine).
(potrebbe essere un modello di business, per scansionare le immagini di altre persone e fornire un buon ocr :))
quindi la risposta è no.
Non sono sicuro di quanta raffinatezza sia necessaria, ma poiché utilizzo anche Adobe Acrobat, faccio clic con il pulsante destro del mouse sul mio allegato Evernote per aprirlo con Acrobat.
Quindi da Acrobat seleziono "Documento | Riconoscimento testo OCR", quindi salvo il documento come testo normale.
Questo funziona bene per me poiché ho solo bisogno di una conversione OCR occasionale.
Se riuscissi a ottenere tutte le immagini da Evernote, potresti fare l'OCR con Google Documenti.
Puoi caricare una cartella di immagini in Google Documenti e convertirle in Documenti, che conterranno sia l'immagine che il testo OCR.
È quindi possibile scaricare in batch tutti questi documenti come testo normale, che rimuoverà l'immagine.
Se assegni un nome a tutte le immagini di Evernote con un hash (ad es. md5
), Dovrebbe essere facile collegare file di testo semplice scaricati da Google Documenti con l'immagine originale.
Sono su Windows e utilizzo Adobe Acrobat Pro e Word, quindi faccio quanto segue: