Da TIFF a TEXT o indicizza i file TIFF in base al contenuto del testo


1

Ho un paio di migliaia di file Tiff, ognuno è un documento di testo multipagina. Vorrei poter cercare il contenuto di questi file e organizzarli / indicizzarli in base a determinate informazioni, come Nome, Città, Provincia, Stato, Via, Codice postale, ecc. L'obiettivo è trovare i file pertinenti in base a termini di ricerca. Ad esempio, se dovessi cercare "Doyle, Bob" E "Orange County" verrebbero recuperati tutti i file contenenti questi termini. Ho PC Windows e Linux disponibili, ma non deve essere multipiattaforma.

Che cosa suggerisci?

Risposte:


1

Vorrei poter cercare il contenuto di questi file (tiff).

Di seguito sono presentate due soluzioni, per Windows e per Linux.


Soluzione Windows

È possibile installare l' IFilter TIFF .

Windows® TIFF IFilter consente di cercare documenti TIFF in base al contenuto del testo. Una volta caricato, IFilter TIFF di Windows esegue l'elaborazione di riconoscimento ottico dei caratteri (OCR) delle immagini TIFF, quindi fornisce il testo riconosciuto al chiamante per creare l'indice di ricerca.

Il filtro TIFF di Windows si concentra su documenti basati su testo, il che significa che la ricerca avrà maggiore successo per i documenti che contengono testo chiaramente identificabile (ad esempio, testo nero su uno sfondo bianco) e meno riuscita per i documenti che contengono contenuto misto (ad esempio, testo artistico o testo all'interno delle immagini). Inoltre, immagini di bassa qualità e lingue miste possono influire negativamente sull'elaborazione OCR e, di conseguenza, ridurre la qualità dei risultati della ricerca.

Windows TIFF IFilter supporta tutti i documenti TIFF che si lamentano delle specifiche Adobe TIFF Revisione 6.0 e include le compressioni più frequenti (come LZW, JPG, CCITT v4, CCITT v6 e non compresso).

Il link di origine include istruzioni dettagliate per l'installazione.

Nota:

Guida all'installazione e alle operazioni di IFilter TIFF Windows di origine


Soluzione Linux

  1. Converti i file TIFF in file di testo o PDF.

    • Il link in basso mostra come convertire in PDF con un passaggio OCR intermedio (che utilizza Tesseract).

    • Il passaggio intermedio produce un file di testo.

    • Ciò significa che il PDF è creato da testo e non da immagini.

  2. Cerca i file di testo o i file PDF come desideri.

Vedere Scansione e modifica di testo con OCR per un approccio per la conversione.


Il PDF può contenere immagini e di solito il TIFF convertito in PDF include solo l'immagine dei file (non convertitore OCR).
Giacomo Catenazzi,

@GiacomoCatenazzi Il link che ho citato risolve il problema usando un passaggio OCR intermedio usando Tesseract;) Chiarirò la risposta.
DavidPostill
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.