In Unicode, alcune combinazioni di caratteri hanno più di una rappresentazione.
Ad esempio, il carattere ä può essere rappresentato come
- "ä", ovvero il punto di codice U + 00E4 (due byte
c3 a4
nella codifica UTF-8) o come - "ä", ovvero i due punti di codice U + 0061 U + 0308 (tre byte
61 cc 88
in UTF-8).
Secondo lo standard Unicode, le due rappresentazioni sono equivalenti ma in diverse "forme di normalizzazione", vedere UAX n. 15: Unicode Normalization Forms .
La toolbox unix ha tutti i tipi di strumenti di trasformazione del testo, come sed , tr , iconv , Perl. Come posso fare una conversione NF semplice e veloce dalla riga di comando?
perl -MUnicode::Normalization -e 'print NFC(
... ehm, cosa viene qui adesso ...