Come rimuovere l'OCR da un PDF?


13

Ho cercato Google per un po 'di tempo ma non riesco a trovare una risposta alla mia domanda.

Ho strati indesiderati di OCR in un documento che ho recentemente scansionato con Adobe Acrobat. Non è stato eseguito correttamente l'OCR e desidero redigere alcune informazioni, ma l'OCR sta facendo in modo che le informazioni desiderate vengano cancellate. Ho convertito i file in TIF, ma ho notato una perdita di qualità (molto) significativa. Ho sentito che la stampa su un altro PDF mantiene il testo o riduce la qualità dell'immagine.

Apprezzo qualsiasi aiuto per risolvere questo problema al più presto.

Grazie.

Risposte:


5

In Acrobat Pro DC, il comando appropriato è "Rimuovi informazioni nascoste", disponibile tramite gli strumenti "Proteggi" e "Redatta".

Eseguendo il comando, cerca solo le informazioni nascoste ma non cambia il documento. È quindi necessario comunicare ad Acrobat quali informazioni rimuovere. In questo caso, seleziona "Testo nascosto" nel riquadro Risultati, quindi fai clic sul pulsante Rimuovi e salva il documento modificato.


Ho usato il "rimuovere le informazioni nascoste", ma per me per qualche motivo che rimuove solo parti dell'immagine in determinate pagine. Grazie comunque per la tua risposta.
Sanoo,

Questo non è universalmente vero. In qualche modo (probabilmente bug macOS PDFKit) il mio testo ABBYY FineReader-OCRed è stato corrotto, e selezionando "Testo nascosto" in Redact → Rimuovi nascosto è stato rimosso il testo senza problemi; Sono stato quindi in grado di utilizzare correttamente Migliora scansioni → Riconosci testo per eseguire l'OCR all'interno di Acrobat stesso.
Nicholas Riley,

Il problema per me è che dopo aver rimosso il testo nascosto, non riesco ancora a eseguire un OCR con "ClearScan" (ovvero "Testo e immagini modificabili"). È strano perché il livello di testo sembra essere sparito, ma l'esecuzione dell'OCR produce l'errore "Acrobat non è stato in grado di eseguire il riconoscimento perché: la pagina contiene testo renderizzabile".
user1125483

1

Dopo molti esperimenti, ho scoperto che la stampa su Adobe PDF da Adobe Acrobat stampa il documento senza l'OCR e senza perdere la qualità (si perde una risoluzione impercettibile a prima vista).

Tuttavia, molti siti affermano che questo non funziona. Ho anche provato le altre stampanti come Foxit Reader e OneNote ma la qualità è stata ridotta. Anche JPEG era lo stesso.

Tieni presente che il tuo chilometraggio può variare.

Nota: sto lasciando questo thread contrassegnato come senza risposta nella speranza di trovare una risposta migliore della mia.


1

(un anno fa...)

Se, come dici tu, i documenti vengono scansionati e non stampati in PDF da Word, ad esempio, puoi facilmente rimuoverli con Adobe:

Seleziona Documento, Esamina documento e ora puoi rimuovere il testo nascosto (OCR).


Grazie per la tua risposta. Lo proverò appena posso e ti faccio sapere. Grazie per la risposta!
Sanoo,

Pensavo di aver già commentato questo, ma il problema è che ho Acrobat DC Pro e quei menu sono stati rimossi. Grazie comunque per la tua risposta.
Sanoo,

1

In Acrobat Pro: usa "rimuovi informazioni nascoste" (sotto "protezione"). Seleziona tutto, esegui, l'OCR è sparito


1

In Acrobat X, in Protezione, è presente un pulsante Disattiva documento che rimuove TUTTO ma ciò che può essere visto (incluso il livello di testo OCR), convertendo il documento in una mappa di bit appiattita.


0

Ho creato uno strumento per fare questo redattore PDF gratuito . Se carichi l'immagine e fai clic su Redact, il tuo pdf verrà appiattito e verrà rimosso l'OCR. Se lo desideri, puoi anche disegnare segni di redazione sul documento.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.