Ho un documento di testo che ha un carico di testo che ha uno spazio aggiuntivo aggiunto dopo ogni lettera!
Esempio:
T h e b o o k a l s o h a s a n a n a l y t i c a l p u r p o s e w h i c h i s m o r e i m p o r t a n t…
visivamente:
T␣h␣e␣␣b␣o␣o␣k␣␣a␣l␣s␣o␣␣h␣a␣s␣␣a␣n␣␣a␣n␣a␣l␣y␣t␣i ␣c␣a␣l␣␣p␣u␣r␣p␣o␣s␣e␣␣w␣h␣i␣c␣h␣␣i␣s␣␣m␣o␣r␣e␣␣i␣ m␣p␣o␣r␣t␣a␣n␣t ...
Nota che c'è uno spazio extra dopo ogni lettera, quindi ci sono due spazi tra le parole consecutive.
C'è un modo per ottenere awk
o sed
eliminare gli spazi extra? (Sfortunatamente questo documento di testo è enorme e richiederebbe molto tempo per essere esaminato manualmente.)
Mi rendo conto che questo è probabilmente un problema molto più complesso da risolvere con un semplice script bash in quanto deve esserci anche una sorta di riconoscimento del testo.
Come posso affrontare questo problema?
echo 't h i s i s a n e x a m p l e' | sed 's/ //g'
echo 'T h i s ; i s .a n 9 8 e x a m p l e' | perl -pe 's/[a-z]\K (?=[a-z])//ig'