OCR in batch per molti file PDF (non già OCR)? [chiuso]

9

Uso Google Desktop Search (sono su Vista) e non tutti i miei file PDF sono riconosciuti nella mia cartella di archivio. È normale che i " file PDF che contengono immagini scansionate " non siano indicizzati ( http://desktop.google.com/support/bin/answer.py?hl=it&answer=90651 )

Quindi vorrei OCR molti dei miei file PDF che non sono già OCR. Il mio obiettivo: io do una cartella al programma e cerca da solo nelle sottocartelle i file PDF che devono essere convertiti in file PDF-OCR.

Nota: in passato, se un file PDF era protetto da password, ho rimosso la password con un altro strumento batch (a pagamento): verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

Qualche idea (non troppo costosa)?

Ho già provato: Finereader 6 pro su xp al momento, ma non era incluso un processore batch ... Paperfile paperfile.net che utilizza Tesseract http://code.google.com/p/tesseract-ocr/ . Ma l'OCR è solo da PDF a testo, non da PDF a PDF! C'è anche un altro progetto http://code.google.com/p/ocropus/

Grazie in anticipo ;)

pdf ocr desktop-search

— Erb
fonte

Aggiornamento di un anno dopo: Ciao, apparentemente il software "ABBYY Hot Folder & Scheduling", incluso solo nelle versioni ABBYY FineReader (> v. 9.0) Corporate e Site License, può aiutare (non l'ho provato: 600 $!)! Anche Tesseract dovrebbe lavorare su Windows ora (senza successo per me in questo momento!; ()

— Erb,

Inoltre, ABBYY FineReader (> v. 9.0) Pro Edition ha un compito di automazione: scegli la cartella principale + le sue sottocartelle e fa il lavoro. Ma il problema principale è che apre tutti i pdf in una volta (!!), quindi li legge (= ocr) e quindi salva un file pdf unico! Quindi se hai centinaia di pdf la dannata cosa non funziona per me! ; (Peccato, che incubo!; (

— Erb,

6

tl; dr? Inizia con Nuance PowerPDF Advanced.

Ho valutato il software OCR nel dicembre 2014 in preparazione di un grande progetto - OCR su milioni di pagine in lingua inglese realizzate in batch. Se sei disposto a spendere qualche centinaio di dollari hai molte opzioni; le versioni di prova possono farti passare se hai solo bisogno di convertire alcune centinaia di pagine.

Molti pacchetti software vogliono caricare tutti i file di input, eseguire l'OCR e unire il disordine in un singolo output. IMHO questo è completamente sbagliato, non ho idea di chi lo vorrebbe. Stavo cercando un vero batch: un file di output per ogni file di input, operazione automatica, non fermarmi per nulla, alla fine mi dai un rapporto dettagliato. Avviso spoiler: non l'ho trovato.

Seguono i pacchetti in ordine alfabetico. I prezzi indicati di seguito sono elencati ma gli sconti abbondano. Prendi i miei commenti sull'accuratezza con un granello di sale; i tuoi input non saranno gli stessi dei miei input quindi il tuo chilometraggio varierà sicuramente.

ABBYY Finereader 12 Corporate: $ 400. La funzione batch si chiama "Task Manager" ed è nel menu Strumenti. Elaborerà i file da una cartella, comprese le sottocartelle; creerà felicemente un file di output separato per ogni file di input. Non sembra in grado di preservare la gerarchia delle cartelle di input; tutti i file di output sono andati nella stessa cartella di output. L'accuratezza è stata elevata nei miei test, ma è ancora il più basso dei pacchetti che ho elencato qui.

Adobe Acrobat XI: $ 300. La funzione batch si chiama "Riconoscimento del testo / In più file" che può essere trovata facendo clic su Strumenti (terza barra degli strumenti, lato in alto a destra della schermata principale). Elabora le sottocartelle, un output per ciascun input. Interrompe e visualizza un prompt se trova un file protetto da password. Non conserva l'albero delle directory di input per impostazione predefinita; può farlo scrivendo l'output nella stessa cartella dell'input. La precisione è stata abbastanza buona nei miei test.

Nuance OmniPage Ultimate (aka v19): $ 500. La funzione batch si chiama "DocuDirect" ed è un programma separato fornito con il pacchetto. Elaborerà cartelle e sottocartelle; se selezioni le funzionalità giuste, manterrà l'albero della directory di input nell'area di output. Un'uscita per ogni ingresso. Interrompe e richiede una password per un file protetto. Sembra sfruttare in modo eccellente i processori multi-core per eseguire attività in parallelo. La precisione è stata eccellente . Ma la stabilità del processore batch è scarsa; un documento fuzzy lo fermerà nelle sue tracce, per non recuperare mai, facendo deragliare un batch con facilità.

Nuance PowerPDF Advanced v1.1 (successore di OmniPage Ultimate): $ 150. La funzione batch si chiama "Convertitore batch" ed è raggiungibile dal programma principale nella scheda Elaborazione avanzata. Elaborerà cartelle e sottocartelle, preservando la struttura di input nell'output. Un'uscita per ogni ingresso. Userà più core, ma non in modo aggressivo; ciò significa che non sono riuscito a saturare un host multi-core. La precisione è eccellente , buona o migliore di OmniPage. I file danneggiati o sfocati non hanno causato il blocco. Il processore batch scrive ( shock ) un file di registro in testo normale nella directory di output.

ReadIris Corporate 14: $ 600. La funzione batch viene invocata dall'elemento "OCR batch" che viene rivelato facendo clic sul pulsante "Da file" nella schermata principale. Elaborerà cartelle e sottocartelle, un output per ogni input e per impostazione predefinita la struttura della directory di output corrisponde alla struttura della directory di input. Interrompe e richiede l'input dell'utente su un file non valido; elabora senza ulteriore reclamo tutti i documenti protetti apparentemente mediante l'OCR dell'immagine. La precisione è stata molto buona, alla pari con Acrobat.

Sulla mia macchina desktop (solo dual core), con i miei input scelti, ogni pacchetto ha richiesto almeno 3 secondi per elaborare una pagina; alcuni hanno preso di più. Potrebbe essere in grado di farlo scendere su una macchina con più core.

I Gotcha abbondano, assicurati di pianificarli: PDF non validi (alcuni pacchetti si fermano), PDF protetti da password (alcuni pacchetti si fermano, altri si convertono comunque!) E pagine ruotate (orizzontale anziché verticale). Se si desidera eseguire il batch fino al completamento, è necessario preparare l'area di input per questi pacchetti Molto, Molto attentamente. Esamina la funzione di stampa su PDF del pacchetto GhostScript per rimuovere la protezione dai PDF.

L'esecuzione di batch di grandi dimensioni può causare esaurimento della memoria e problemi di sospensione, anche se non dovrebbe (argh - probabilmente perdite di memoria). Se stai eseguendo qualsiasi tipo di automazione, un grosso problema è scoprire dopo il fatto che cosa è realmente accaduto: quali documenti non possono essere elaborati, che non sono riusciti durante l'elaborazione, ecc. È come se il software desktop la gente non avesse mai sentito parlare di qualcosa chiamato un "file di registro".

Finalmente ottenere supporto, anche come cliente pagante, è piuttosto difficile per questi pacchetti del mercato di massa. Ad esempio, mi sono lamentato con un stimato rappresentante dell'assistenza clienti per un pacchetto (che rimarrà senza nome) in attesa di alcuni input di grandi dimensioni. Ho aspettato 36 ore prima di arrendermi :). Hanno dolcemente suggerito di limitare la dimensione del lotto a 300 documenti. È stato assolutamente inaccettabile per me, ma ehi, quel biglietto di supporto è stato chiuso rapidamente, giusto? E questo è tutto ciò che conta, giusto? Sospiro.

HTH

— chrisinmtown
fonte

Ciao Chrislott, grazie per la risposta dettagliata. ;) Ho apprezzato. ;) Siamo passati più di 4 anni e incredibilmente ancora nessun software è perfetto per fare semplicemente un OCR automatico in una cartella e rilasciare un file di registro con errori una volta terminato! ... Forse proverò a contattare Nuance.

— Erb,

Per ora uso una vecchia versione di Acrobat Pro e diversi freeware. È un processo lungo. Posso dettagliarlo se necessario! Ma il lavoro è fatto nel miglior modo possibile! ;)

— Erb

3

Adobe Acrobat elaborerà una cartella di PDF e, come la maggior parte dei prodotti Adobe, è prevista una versione di prova di 30 giorni .
La funzione si trova nel menu 'Documento':

Documento> Registra testo OCR> Riconoscimento del testo in più file tramite OCR

da dove puoi aggiungere la tua cartella.

In Acrobat X la funzione è disponibile come segue:

Strumenti> Riconosci testo> In più file

— pelms
fonte

Grazie "pelms". ;) Lo proverò quando il tempo lo permetterà. Quello che mi è piaciuto nella mia precedente prova di finereader.abbyy.com è che poteva riconoscere diverse lingue. ;)

— Erb

1

In realtà, pdfsandwich è stato aggiornato nell'ultimo anno e non è stato per me difficile installarlo in Linux Mint. I risultati che fornisce sono inferiori ad Adobe Acrobat, ma è l'unica soluzione praticabile che ho trovato finora in Linux.

— Brian Z
fonte

1

Molto interessante! Non lo sapevo. Sto aggiungendo un link da en.wikisource.org/wiki/… e lo testerò ad un certo punto in futuro. (In realtà ci sono molte altre soluzioni ma non inizierò qui!)

— Nemo

0

Prova WatchOCR . È un pacchetto software open source che converte le immagini scansionate in pdf ricercabili di testo. È gratuito e open source e ha una bella interfaccia web per l'amministrazione remota. Con la giusta configurazione può essere utilizzato per creare un servizio batch pdf / ocr per un'intera rete tramite condivisioni smb. Sfortunatamente è solo Linux. Ma potresti installarlo su un vecchio server e quindi l'intera organizzazione potrebbe usarlo.

Se vuoi fare lo stesso online senza installare nulla, prova PDFCubed.com

— rlangner
fonte

La homepage di WatchOCR è occupata, sebbene archiviata

— Tobias Kienzler,