tl; dr? Inizia con Nuance PowerPDF Advanced.
Ho valutato il software OCR nel dicembre 2014 in preparazione di un grande progetto - OCR su milioni di pagine in lingua inglese realizzate in batch. Se sei disposto a spendere qualche centinaio di dollari hai molte opzioni; le versioni di prova possono farti passare se hai solo bisogno di convertire alcune centinaia di pagine.
Molti pacchetti software vogliono caricare tutti i file di input, eseguire l'OCR e unire il disordine in un singolo output. IMHO questo è completamente sbagliato, non ho idea di chi lo vorrebbe. Stavo cercando un vero batch: un file di output per ogni file di input, operazione automatica, non fermarmi per nulla, alla fine mi dai un rapporto dettagliato. Avviso spoiler: non l'ho trovato.
Seguono i pacchetti in ordine alfabetico. I prezzi indicati di seguito sono elencati ma gli sconti abbondano. Prendi i miei commenti sull'accuratezza con un granello di sale; i tuoi input non saranno gli stessi dei miei input quindi il tuo chilometraggio varierà sicuramente.
ABBYY Finereader 12 Corporate: $ 400. La funzione batch si chiama "Task Manager" ed è nel menu Strumenti. Elaborerà i file da una cartella, comprese le sottocartelle; creerà felicemente un file di output separato per ogni file di input. Non sembra in grado di preservare la gerarchia delle cartelle di input; tutti i file di output sono andati nella stessa cartella di output. L'accuratezza è stata elevata nei miei test, ma è ancora il più basso dei pacchetti che ho elencato qui.
Adobe Acrobat XI: $ 300. La funzione batch si chiama "Riconoscimento del testo / In più file" che può essere trovata facendo clic su Strumenti (terza barra degli strumenti, lato in alto a destra della schermata principale). Elabora le sottocartelle, un output per ciascun input. Interrompe e visualizza un prompt se trova un file protetto da password. Non conserva l'albero delle directory di input per impostazione predefinita; può farlo scrivendo l'output nella stessa cartella dell'input. La precisione è stata abbastanza buona nei miei test.
Nuance OmniPage Ultimate (aka v19): $ 500. La funzione batch si chiama "DocuDirect" ed è un programma separato fornito con il pacchetto. Elaborerà cartelle e sottocartelle; se selezioni le funzionalità giuste, manterrà l'albero della directory di input nell'area di output. Un'uscita per ogni ingresso. Interrompe e richiede una password per un file protetto. Sembra sfruttare in modo eccellente i processori multi-core per eseguire attività in parallelo. La precisione è stata eccellente . Ma la stabilità del processore batch è scarsa; un documento fuzzy lo fermerà nelle sue tracce, per non recuperare mai, facendo deragliare un batch con facilità.
Nuance PowerPDF Advanced v1.1 (successore di OmniPage Ultimate): $ 150. La funzione batch si chiama "Convertitore batch" ed è raggiungibile dal programma principale nella scheda Elaborazione avanzata. Elaborerà cartelle e sottocartelle, preservando la struttura di input nell'output. Un'uscita per ogni ingresso. Userà più core, ma non in modo aggressivo; ciò significa che non sono riuscito a saturare un host multi-core. La precisione è eccellente , buona o migliore di OmniPage. I file danneggiati o sfocati non hanno causato il blocco. Il processore batch scrive ( shock ) un file di registro in testo normale nella directory di output.
ReadIris Corporate 14: $ 600. La funzione batch viene invocata dall'elemento "OCR batch" che viene rivelato facendo clic sul pulsante "Da file" nella schermata principale. Elaborerà cartelle e sottocartelle, un output per ogni input e per impostazione predefinita la struttura della directory di output corrisponde alla struttura della directory di input. Interrompe e richiede l'input dell'utente su un file non valido; elabora senza ulteriore reclamo tutti i documenti protetti apparentemente mediante l'OCR dell'immagine. La precisione è stata molto buona, alla pari con Acrobat.
Sulla mia macchina desktop (solo dual core), con i miei input scelti, ogni pacchetto ha richiesto almeno 3 secondi per elaborare una pagina; alcuni hanno preso di più. Potrebbe essere in grado di farlo scendere su una macchina con più core.
I Gotcha abbondano, assicurati di pianificarli: PDF non validi (alcuni pacchetti si fermano), PDF protetti da password (alcuni pacchetti si fermano, altri si convertono comunque!) E pagine ruotate (orizzontale anziché verticale). Se si desidera eseguire il batch fino al completamento, è necessario preparare l'area di input per questi pacchetti Molto, Molto attentamente. Esamina la funzione di stampa su PDF del pacchetto GhostScript per rimuovere la protezione dai PDF.
L'esecuzione di batch di grandi dimensioni può causare esaurimento della memoria e problemi di sospensione, anche se non dovrebbe (argh - probabilmente perdite di memoria). Se stai eseguendo qualsiasi tipo di automazione, un grosso problema è scoprire dopo il fatto che cosa è realmente accaduto: quali documenti non possono essere elaborati, che non sono riusciti durante l'elaborazione, ecc. È come se il software desktop la gente non avesse mai sentito parlare di qualcosa chiamato un "file di registro".
Finalmente ottenere supporto, anche come cliente pagante, è piuttosto difficile per questi pacchetti del mercato di massa. Ad esempio, mi sono lamentato con un stimato rappresentante dell'assistenza clienti per un pacchetto (che rimarrà senza nome) in attesa di alcuni input di grandi dimensioni. Ho aspettato 36 ore prima di arrendermi :). Hanno dolcemente suggerito di limitare la dimensione del lotto a 300 documenti. È stato assolutamente inaccettabile per me, ma ehi, quel biglietto di supporto è stato chiuso rapidamente, giusto? E questo è tutto ciò che conta, giusto? Sospiro.
HTH