Come rimuovere i caratteri invisibili dal testo copiato dal PDF

0

Se copio del testo da un PDF, il testo appare corretto, tuttavia l'editor di testo considera il testo come una sequenza lunga.

Come appare la linea nel blocco note:

bloc notes

L'unico modo in cui sono stato in grado di vedere visivamente che c'è un problema con il testo è copiando il testo in vi, tramite Cmder:

Il testo appare come segue all'interno di un editor esadecimale:

HxD

Ho provato a usare Puretext per rimuovere il carattere invisibile su incolla, ma non funziona:

PureText

Cercare di copiare e incollare il personaggio nella finestra di dialogo di sostituzione di un editor e sostituirlo con uno spazio non produce risultati.

L'unico modo in cui ho scoperto che funziona è eliminare manualmente ogni "spazio" e sostituirlo con uno spazio reale.

Qual è il modo consigliato per rimuovere facilmente questi caratteri invisibili quando si incolla o usando la ricerca e la sostituzione?

windows pdf text-editing

— Dev Step
fonte

1

hai provato a copiarlo incollandolo per eccellere e utilizzare la funzione SOSTITUTIVA? O forse usi il comando Incolla come testo normale in Chrome? Sarà anche difficile riprodurre e testare la possibile soluzione senza che tu fornisca un esempio pdf

— Vylix

@Vylix La tua risposta mi ha dato l'idea di utilizzare Chrome come visualizzatore di PDF anziché il mio attuale visualizzatore, che è SumatraPDF. Ha funzionato! L'uso di Chrome come visualizzatore di PDF non introduce i caratteri problematici, quindi non c'è più un problema da risolvere.

— Dev Step

felice di essere d'aiuto. Puoi scriverlo come risposta?

— Vylix,

A0 sarebbe LF. Quindi, per qualsiasi motivo, SumatraPDF copia gli spazi come feed di riga (in questo caso). Blocco note non gestisce correttamente LF poiché il valore atteso previsto per un'interruzione di riga è CRLF su Windows. Anche se credo che una delle ultime build di Windows 10 dovrebbe avere una patch per Notepad che lo faccia rispettare anche le interruzioni di linea in stile Unix.

— Seth

@Seth CRLF è 0D 0A però, non A0. A0 sembra essere uno spazio non-break.

— Dev Step

Risposte:

0

Ecco la soluzione semplice:

Il visualizzatore PDF che uso è SumatraPDF. Se uso Chrome come visualizzatore di PDF, non introduce lo spazio non-break nel testo copiato.

Il visualizzatore PDF di Chrome inserisce lo spazio corretto nel testo copiato.

Modificando il visualizzatore PDF utilizzato per questi PDF particolari, il problema è risolto.

Ho provato questo con vari PDF e il problema è solo con questi PDF particolari.

— Dev Step
fonte

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.

Licensed under cc by-sa 3.0 with attribution required.