Da oggi lo so: la cosa migliore per l'estrazione del testo dai PDF è TET, il toolkit di estrazione del testo . TET fa parte della famiglia di prodotti PDFlib.com.
PDFlib.com è la società di Thomas Merz. Nel caso in cui non riconoscessi il suo nome: Thomas Merz è l'autore della "Bibbia PostScript e PDF".
La prima incarnazione di TET è una biblioteca . Probabilmente uno può fare tutto ciò che Budda006 desidera, comprese le informazioni di posizione su ogni elemento della pagina. Oh, e può anche estrarre immagini. Ricombina immagini frammentate.
pdflib.com offre anche un'altra incarnazione di questa tecnologia, il plug-in TET per Acrobat . E la terza incarnazione è il PDFlib TET iFilter . Questo è uno strumento autonomo per i desktop degli utenti. Entrambi sono gratuiti (come nella birra) da utilizzare per scopi privati e non commerciali.
Ed è davvero potente. Molto meglio dell'estrazione del testo di Adobe. Ha estratto il testo per me in cui altri strumenti (incluso Adobe) sputano solo immondizia.
Ho appena testato lo strumento autonomo desktop e ciò che dicono sulla loro pagina web è vero. Ha una riga di comando molto buona. Alcuni dei miei "problematici" file di test PDF lo strumento gestito con mia piena soddisfazione.
Questa cosa sarà d'ora in poi la mia raccomandazione per ogni esigenza sofisticata e impegnativa di estrazione del testo PDF.
TET è semplicemente fantastico. Rileva le tabelle. All'interno delle tabelle, identifica le celle che si estendono su più colonne. Identifica le righe e i contenuti di ciascuna cella di tabella separatamente. Si occupa molto bene delle sillabazioni: rimuove i trattini e ripristina le parole complete. Supporta lingue non ASCII (inclusi CJK, arabo ed ebraico). Quando incontra legature, ripristina i personaggi originali ...
Provaci.