Attualmente sto usando Beautiful Soup per analizzare un file HTML e chiamare get_text(), ma sembra che mi venga lasciato un sacco di \ xa0 Unicode che rappresentano gli spazi. Esiste un modo efficace per rimuoverli tutti in Python 2.7 e trasformarli in spazi? Immagino che la domanda più generalizzata sarebbe: esiste un modo per rimuovere la formattazione Unicode?
Ho provato a usare line = line.replace(u'\xa0',' '):, come suggerito da un altro thread, ma questo ha cambiato gli \ xa0 in u, quindi ora ho "u" ovunque. ):
EDIT: Il problema sembra essere risolto str.replace(u'\xa0', ' ').encode('utf-8'), ma solo facendo .encode('utf-8')senza replace()sembra causare a sputare personaggi anche più strane, \ xc2 per esempio. Qualcuno può spiegare questo?
u''s invece di ''s. :-)
u' 'sostituzione, non la ' '. La stringa originale è quella Unicode?