So che questa domanda è vecchia e ha già una risposta accettata, ma voglio offrire alcuni esempi (sperando che possa essere utile a qualcuno).
Per quanto ne so, i vecchi caratteri ASCII hanno preso un byte per carattere.
Destra. In realtà, poiché ASCII è una codifica a 7 bit, supporta 128 codici (di cui 95 stampabili), quindi utilizza solo mezzo byte (se questo ha senso).
Quanti byte richiede un carattere Unicode?
Unicode associa i caratteri ai punti di codice. Non definisce come codificarli. Un file di testo non contiene caratteri Unicode, ma byte / ottetti che possono rappresentare caratteri Unicode.
Presumo che un carattere Unicode possa contenere tutti i caratteri possibili di qualsiasi lingua - ho ragione?
No. Ma quasi. Quindi sostanzialmente sì. Ma ancora no.
Di quanti byte ha bisogno per personaggio?
Come la tua seconda domanda.
E cosa significano UTF-7, UTF-6, UTF-16 ecc.? Sono alcune versioni Unicode?
No, quelli sono codifiche. Definiscono come byte / ottetti dovrebbero rappresentare i caratteri Unicode.
Un paio di esempi. Se alcuni di questi non possono essere visualizzati nel tuo browser (probabilmente perché il font non li supporta), vai a http://codepoints.net/U+1F6AA
(sostituisci 1F6AA
con il punto di codice in esadecimale) per vedere un'immagine.
- U + 0061 LATINA PICCOLA LETTERA A:
a
- Nº: 97
- UTF-8: 61
- UTF-16: 00 61
- U + 00A9 SEGNO COPYRIGHT:
©
- Nº: 169
- UTF-8: C2 A9
- UTF-16: 00 A9
- U + 00AE SEGNO REGISTRATO:
®
- Nº: 174
- UTF-8: C2 AE
- UTF-16: 00 AE
- U + 1337 PHWA SILLABILE ETIOPICO:
ጷ
- Nº: 4919
- UTF-8: E1 8C B7
- UTF-16: 13 37
- U + 2014 EM DASH:
—
- Nº: 8212
- UTF-8: E2 80 94
- UTF-16: 20 14
- U + 2030 PER SEGNO MILLE:
‰
- Nº: 8240
- UTF-8: E2 80 B0
- UTF-16: 20 30
- U + 20AC EURO SIGN:
€
- Nº: 8364
- UTF-8: E2 82 AC
- UTF-16: 20 AC
- U + 2122 SEGNO DEL MARCHIO COMMERCIALE:
™
- Nº: 8482
- UTF-8: E2 84 A2
- UTF-16: 21 22
- U + 2603 PUPAZZO DI NEVE:
☃
- Nº: 9731
- UTF-8: E2 98 83
- UTF-16: 26 03
- U + 260E TELEFONO NERO:
☎
- Nº: 9742
- UTF-8: E2 98 8E
- UTF-16: 26 0E
- OMBRELLO U + 2614 CON GOCCE DI PIOGGIA:
☔
- Nº: 9748
- UTF-8: E2 98 94
- UTF-16: 26 14
- U + 263A FACCIA SORRIDENTE BIANCA:
☺
- Nº: 9786
- UTF-8: E2 98 BA
- UTF-16: 26 3A
- U + 2691 BANDIERA NERA:
⚑
- Nº: 9873
- UTF-8: E2 9A 91
- UTF-16: 26 91
- U + 269B SIMBOLO ATOM:
⚛
- Nº: 9883
- UTF-8: E2 9A 9B
- UTF-16: 26 9B
- U + 2708 AEREO:
✈
- Nº: 9992
- UTF-8: E2 9C 88
- UTF-16: 27 08
- U + 271E CROCE LATINA BIANCA OMBRA:
✞
- Nº: 10014
- UTF-8: E2 9C 9E
- UTF-16: 27 1E
- U + 3020 POSTAL MARK FACE:
〠
- Nº: 12320
- UTF-8: E3 80 A0
- UTF-16: 30 20
- U + 8089 IDEOGRAFO UNIFICATO CJK-8089:
肉
- Nº: 32905
- UTF-8: E8 82 89
- UTF-16: 80 89
- U + 1F4A9 MUCCHIO DI POO:
💩
- Nº: 128169
- UTF-8: F0 9F 92 A9
- UTF-16: D8 3D DC A9
- U + 1F680 ROCKET:
🚀
- Nº: 128640
- UTF-8: F0 9F 9A 80
- UTF-16: D8 3D DE 80
Ok, mi sto portando via ...
Fatti divertenti: