U + 4E00..U + 9FFF fa parte del set completo, ma non tutto
U + 4E00..U + 9FFF fa parte del set completo, ma non tutto
Risposte:
Potresti trovare un elenco completo tramite le domande frequenti su Unicode CJK (che include i caratteri "cinese, giapponese e coreano")
Il documento " East Asian Script " menziona:
Blocchi contenenti ideogrammi Han
I caratteri ideografici Han si trovano in cinque blocchi principali dello standard Unicode, come mostrato nella Tabella 12-2
Tabella 12-2. Blocchi contenenti ideogrammi Han
Block Range Comment
CJK Unified Ideographs 4E00-9FFF Common
CJK Unified Ideographs Extension A 3400-4DBF Rare
CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic
CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
Nota: gli intervalli di blocchi possono evolversi nel tempo: l'ultimo è in CJK Unified Ideographs .
Vedi anche Wikipedia:
Unicode attualmente ha 74605 caratteri CJK. I caratteri CJK non includono solo i caratteri usati dal cinese, ma anche dal giapponese Kanji, dal coreano Hanja e dal vietnamita Chu Nom . Alcuni caratteri CJK non sono caratteri cinesi.
Il codice punta da U + 4E00 a U + 9FCC.
Punti di codice da U + 3400 a U + 4DB5 . Unicode 3.0 (1999).
Il codice punta da U + 20000 a U + 2A6D6. Unicode 3.1 (2001).
Il codice punta da U + 2A700 a U + 2B734 . Unicode 5.2 (2009).
Punti di codice da U + 2B740 a U + 2B81D . Unicode 6.0 (2010).
Se quanto sopra non è abbastanza spaghetti, dai un'occhiata ai problemi noti . Buon divertimento =)
Gli intervalli esatti per i caratteri cinesi (eccetto le estensioni) sono [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
.
CJK Radicals Supplement è un blocco Unicode contenente forme alternative, spesso posizionali, dei radicali Kangxi. Vengono utilizzate le intestazioni negli indici dei dizionari e in altre raccolte di ideogrammi CJK organizzate in base a tratti radicali.
Kanbun è un blocco Unicode contenente caratteri di annotazione utilizzati nelle copie giapponesi di testi classici cinesi, per indicare l'ordine di lettura.
CJK Unified Ideographs Extension-A è un blocco Unicode contenente rari ideogrammi Han.
CJK Unified Ideographs è un blocco Unicode contenente gli ideogrammi CJK più comuni utilizzati nel cinese moderno e nel giapponese.
CJK Compatibility Ideographs è un blocco Unicode creato per contenere caratteri Han codificati in più posizioni in altre codifiche di caratteri stabilite, oltre alle loro assegnazioni CJK Unified Ideographs, al fine di mantenere la compatibilità di andata e ritorno tra Unicode e quelle codifiche.
Per i dettagli fare riferimento a qui , e le estensioni sono fornite in altre risposte.
Unicode versione 11.0.0
In Unicode gli script cinese, giapponese e coreano (CJK) condividono uno sfondo comune, noti collettivamente come caratteri CJK.
Questi intervalli spesso contengono punti di codice non assegnati o riservati (come U + 2E9A , U + 2EF4 - 2EFF),
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
Quindi la gamma è
[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]
Sono Common Han utilizzati solo per compatibilità.
È quasi impossibile vederli apparire in qualsiasi libro, articolo, scritto cinese, ecc.
tutti i caratteri qui hanno un corrispondente carattere cinese identico al glifo. Come 金 (U + F90A) e 金 (U + 91D1), sono identici in Glyph.
F900 FAFF https://www.unicode.org/charts/PDF/UF900.pdf CJK Compatibility Ideographs
2F800 2FA1F https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement
2E80 2EFF http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement
2F00 2FDF http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals
2FF0 2FFF https://unicode.org/charts/PDF/U2FF0.pdf Ideographic Description Character
3000 303F https://www.unicode.org/charts/PDF/U3000.pdf CJK Symbols and Punctuation
3100 312f https://unicode.org/charts/PDF/U3100.pdf Bopomofo
31A0 31BF https://unicode.org/charts/PDF/U31A0.pdf Bopomofo Extended
31C0 31EF http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200 32FF https://unicode.org/charts/PDF/U3200.pdf Enclosed CJK Letters and Months
3300 33FF https://unicode.org/charts/PDF/U3300.pdf CJK Compatibility
FE30 FE4F https://www.unicode.org/charts/PDF/UFE30.pdf CJK Compatibility Forms
FF00 FFEF https://www.unicode.org/charts/PDF/UFF00.pdf Halfwidth and Fullwidth Forms
1F200 1F2FF https://www.unicode.org/charts/PDF/U1F200.pdf Enclosed Ideographic Supplement
Questa è una vasta gamma, alcuni segni di punteggiatura forse non sono mai stati usati, alcuni segni di punteggiatura come ……”“
sono usati così tanto in cinese.
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
Ci sono anche molti simboli legati al cinese, come i simboli dell'esagramma di Yijing o Kanbun , ma è comunque fuori tema. Scrivo caratteri non cinesi in CJK per avere una migliore spiegazione di cosa sono i caratteri cinesi. E gli intervalli sopra coprono già quasi tutti i caratteri che compaiono nella scrittura cinese tranne la matematica e altre notazioni speciali.
Simboli CJK e punteggiatura
、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿
Forme a mezza larghezza e a larghezza intera
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○
I blocchi di codice Unicode forniti dalle altre risposte coprono sicuramente la maggior parte dei caratteri Unicode cinesi, ma controlla anche alcuni di questi altri blocchi di codice.
CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS
Vedi la mia discussione più completa qui . E questo sito è comodo per navigare in Unicode.
Per riassumere, sembra che questi siano loro:
var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]
]