Come rimuovere l'OCR da un PDF?

13

Ho cercato Google per un po 'di tempo ma non riesco a trovare una risposta alla mia domanda.

Ho strati indesiderati di OCR in un documento che ho recentemente scansionato con Adobe Acrobat. Non è stato eseguito correttamente l'OCR e desidero redigere alcune informazioni, ma l'OCR sta facendo in modo che le informazioni desiderate vengano cancellate. Ho convertito i file in TIF, ma ho notato una perdita di qualità (molto) significativa. Ho sentito che la stampa su un altro PDF mantiene il testo o riduce la qualità dell'immagine.

Apprezzo qualsiasi aiuto per risolvere questo problema al più presto.

Grazie.

— Sanoo
fonte

5

In Acrobat Pro DC, il comando appropriato è "Rimuovi informazioni nascoste", disponibile tramite gli strumenti "Proteggi" e "Redatta".

Eseguendo il comando, cerca solo le informazioni nascoste ma non cambia il documento. È quindi necessario comunicare ad Acrobat quali informazioni rimuovere. In questo caso, seleziona "Testo nascosto" nel riquadro Risultati, quindi fai clic sul pulsante Rimuovi e salva il documento modificato.

— user1125483
fonte

Ho usato il "rimuovere le informazioni nascoste", ma per me per qualche motivo che rimuove solo parti dell'immagine in determinate pagine. Grazie comunque per la tua risposta.

— Sanoo,

Questo non è universalmente vero. In qualche modo (probabilmente bug macOS PDFKit) il mio testo ABBYY FineReader-OCRed è stato corrotto, e selezionando "Testo nascosto" in Redact → Rimuovi nascosto è stato rimosso il testo senza problemi; Sono stato quindi in grado di utilizzare correttamente Migliora scansioni → Riconosci testo per eseguire l'OCR all'interno di Acrobat stesso.

— Nicholas Riley,

Il problema per me è che dopo aver rimosso il testo nascosto, non riesco ancora a eseguire un OCR con "ClearScan" (ovvero "Testo e immagini modificabili"). È strano perché il livello di testo sembra essere sparito, ma l'esecuzione dell'OCR produce l'errore "Acrobat non è stato in grado di eseguire il riconoscimento perché: la pagina contiene testo renderizzabile".

— user1125483

1

Dopo molti esperimenti, ho scoperto che la stampa su Adobe PDF da Adobe Acrobat stampa il documento senza l'OCR e senza perdere la qualità (si perde una risoluzione impercettibile a prima vista).

Tuttavia, molti siti affermano che questo non funziona. Ho anche provato le altre stampanti come Foxit Reader e OneNote ma la qualità è stata ridotta. Anche JPEG era lo stesso.

Tieni presente che il tuo chilometraggio può variare.

Nota: sto lasciando questo thread contrassegnato come senza risposta nella speranza di trovare una risposta migliore della mia.

— Sanoo
fonte

1

(un anno fa...)

Se, come dici tu, i documenti vengono scansionati e non stampati in PDF da Word, ad esempio, puoi facilmente rimuoverli con Adobe:

Seleziona Documento, Esamina documento e ora puoi rimuovere il testo nascosto (OCR).

— Fran
fonte

Grazie per la tua risposta. Lo proverò appena posso e ti faccio sapere. Grazie per la risposta!

— Sanoo,

Pensavo di aver già commentato questo, ma il problema è che ho Acrobat DC Pro e quei menu sono stati rimossi. Grazie comunque per la tua risposta.

— Sanoo,

1

In Acrobat Pro: usa "rimuovi informazioni nascoste" (sotto "protezione"). Seleziona tutto, esegui, l'OCR è sparito

— Jazzzz
fonte

1

In Acrobat X, in Protezione, è presente un pulsante Disattiva documento che rimuove TUTTO ma ciò che può essere visto (incluso il livello di testo OCR), convertendo il documento in una mappa di bit appiattita.

— Dave
fonte

0

Ho creato uno strumento per fare questo redattore PDF gratuito . Se carichi l'immagine e fai clic su Redact, il tuo pdf verrà appiattito e verrà rimosso l'OCR. Se lo desideri, puoi anche disegnare segni di redazione sul documento.

— levinology
fonte