Attualmente sto usando Beautiful Soup per analizzare un file HTML e chiamare get_text()
, ma sembra che mi venga lasciato un sacco di \ xa0 Unicode che rappresentano gli spazi. Esiste un modo efficace per rimuoverli tutti in Python 2.7 e trasformarli in spazi? Immagino che la domanda più generalizzata sarebbe: esiste un modo per rimuovere la formattazione Unicode?
Ho provato a usare line = line.replace(u'\xa0',' ')
:, come suggerito da un altro thread, ma questo ha cambiato gli \ xa0 in u, quindi ora ho "u" ovunque. ):
EDIT: Il problema sembra essere risolto str.replace(u'\xa0', ' ').encode('utf-8')
, ma solo facendo .encode('utf-8')
senza replace()
sembra causare a sputare personaggi anche più strane, \ xc2 per esempio. Qualcuno può spiegare questo?
u''
s invece di ''
s. :-)
u' '
sostituzione, non la ' '
. La stringa originale è quella Unicode?