Esistono molti file di testo semplice codificati in set di caratteri varianti.
Voglio convertirli tutti in UTF-8, ma prima di eseguire iconv, devo conoscere la sua codifica originale. La maggior parte dei browser ha Auto Detect
un'opzione nelle codifiche, tuttavia, non posso controllare quei file di testo uno per uno perché ce ne sono troppi.
Solo dopo aver conosciuto la codifica originale, posso quindi convertire i testi di iconv -f DETECTED_CHARSET -t utf-8
.
Esiste qualche utilità per rilevare la codifica di file di testo normale? NON deve essere perfetto al 100%, non mi dispiace se ci sono 100 file erroneamente convertiti in 1.000.000 di file.
python-chardet
nel repository universo Ubuntu.