Ho una serie di file di testo di codifica indeterminata che ho bisogno di pulire caratteri insoliti. Ho usato Python biblioteca chadet per stabilire che rispettano l'87% ISO-8859-2, ma contengono ancora caratteri non conformi che impediscono la lettura in R - descritto in questo post SO . Mi chiedo se c'è un modo, preferibilmente un metodo a riga di comando, per pulirli in batch e convertirli in UTF-8, con tutti i caratteri non confermanti modificati in qualcosa come "~". Molto grato per l'assistenza.
iconv: SMKA121212 copy:13:121: cannot convert