Ho una directory con ~ 10.000 file di immagini da una fonte esterna.
Molti nomi di file contengono spazi e segni di punteggiatura che non sono DB friendly o Web friendly. Voglio anche aggiungere un numero SKU alla fine di ogni nome di file (a fini contabili). Molti, se non la maggior parte dei nomi di file contengono anche caratteri latini estesi che desidero conservare per scopi SEO (in particolare, quindi i nomi dei file rappresentano accuratamente i contenuti del file in Google Immagini)
Ho creato uno script bash che rinomina (copia) tutti i file con il risultato desiderato. Lo script bash viene salvato in UTF-8. Dopo l'esecuzione omette circa 500 file (impossibile eseguire il file stat ...).
Ho eseguito convmv -f UTF-8 -t UTF-8 nella directory e ho scoperto che questi 500 nomi di file non sono codificati in UTF-8 (convmv è in grado di rilevare e ignorare i nomi di file già in UTF-8)
Esiste un modo semplice per scoprire quale codifica lingua stanno attualmente utilizzando?
L'unico modo in cui sono stato in grado di capire me stesso è impostare la codifica del mio terminale su UTF-8, quindi scorrere tutte le possibili codifiche candidate con convmv fino a quando non viene visualizzato un nome convertito che "sembra giusto". Non ho modo di essere certo che questi 500 file utilizzino tutti la stessa codifica, quindi dovrei ripetere questo processo 500 volte. Vorrei un metodo più automatizzato di "sembra giusto" !!!