Ma come è possibile?
Fondamentalmente, un programma esegue l'OCR sul file di input e quindi posiziona un livello invisibile di testo sull'immagine. In alternativa, potrebbe anche posizionare un livello visibile di testo sotto l'immagine, dando lo stesso effetto.
Quando selezioni qualcosa, l'immagine non ha importanza perché viene selezionato il livello di testo.
come può essere creato?
Esistono diversi modi. Dato che Acrobat è già stato suggerito, aggiungerò alcune opzioni gratuite (e per fortuna non sei obbligato ad avere Windows per usarle).
PDF-XChange Viewer
Questo è un programma Windows nativo di Tracker Software . La versione freeware funziona bene con Wine se si utilizza l'edizione a 32 bit in un prefisso a 32 bit, quindi è possibile utilizzarla su Windows, macOS e Linux. Negli ultimi due casi, avresti bisogno rispettivamente di PlayOnMac o PlayOnLinux.
Ecco un'immagine da questa risposta che ho lasciato su Ask Ubuntu:
OCRmyPDF
Questo è un programma multipiattaforma scritto in Python , basato su Ghostscript, Tesseract e Unpaper. Dai documenti:
Cosa fa OCRmyPDF
OCRmyPDF analizza ogni pagina di un PDF per determinare lo spazio colore e la risoluzione (DPI) necessari per acquisire tutte le informazioni su quella pagina senza perdere il contenuto. Usa Ghostscript per rasterizzare la pagina, quindi si esibisce su OCR sull'immagine rasterizzata per creare un "livello" OCR. Il layer viene quindi innestato nuovamente nel PDF originale.
Può essere facilmente installato su derivati Debian e Ubuntu:
apt-get install ocrmypdf
O su macOS:
brew tap jbarlow83/ocrmypdf
brew install ocrmypdf
Su Windows è necessario utilizzare l'immagine Docker. Vedi i documenti ufficiali per i dettagli.
L'utilizzo è molto semplice e ti suggerisco di utilizzare i parametri opzionali -d
(di inclinazione) e -c
(puliti) per risultati migliori. Raddrizzerà ogni pagina e pulirà piccoli punti / imperfezioni prima di eseguire il processo OCR.
Puoi (e dovresti) fornire la lingua -l
.
Ecco un esempio tratto da questo documento distorto scritto in italiano:
Il comando che ho usato era:
ocrmypdf -l ita -d -c input.pdf output.pdf
Strumenti online
Ci sono alcuni strumenti online che fanno lo stesso. Notevole, PDF24 ospita una versione web gratuita di OCRmyPDF che può essere utilizzata senza limitazioni.
Guarda anche: