Ho un file in UTF-8 che contiene testi in più lingue. Molti di questi sono nomi di persone. Devo convertirlo in ASCII e ho bisogno che il risultato appaia il più decente possibile.
Esistono molti modi per approcciare la conversione da una codifica più ampia a una codifica più stretta. La trasformazione più semplice sarebbe quella di sostituire tutti i caratteri non ASCII con alcuni segnaposto, come '_'. Se conosco la lingua in cui è scritto il file, ci sono ulteriori possibilità, come la romanizzazione.
Quale strumento Unix o libreria di linguaggi di programmazione disponibile su Unix può darmi una conversione decente (best-effort) da UTF-8 a ASCII?
La maggior parte del testo è in lingue europee di tipo latino.
iconv
e tr
, c'è Unidecode . Non ne ho familiarità, ma potrebbe fare quello che vuoi, se puoi usare Python.