Qual è l'intervallo completo per i caratteri cinesi in Unicode?


94

U + 4E00..U + 9FFF fa parte del set completo, ma non tutto


3
Vorrei semplicemente collegare un articolo di wikipedia qui poiché l'intervallo di blocchi si aggiornava di volta in volta, quindi è meglio collegare qualcosa che cambia dinamicamente ratger tgan dando una risposta statica ... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067

Risposte:


104

Potresti trovare un elenco completo tramite le domande frequenti su Unicode CJK (che include i caratteri "cinese, giapponese e coreano")

Il documento " East Asian Script " menziona:

Blocchi contenenti ideogrammi Han

I caratteri ideografici Han si trovano in cinque blocchi principali dello standard Unicode, come mostrato nella Tabella 12-2

Tabella 12-2. Blocchi contenenti ideogrammi Han

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

Nota: gli intervalli di blocchi possono evolversi nel tempo: l'ultimo è in CJK Unified Ideographs .

Vedi anche Wikipedia:


Potresti anche voler includere U + AC00 - U + D7AF (Hangul Syllables).
Flimm

12
@Flimm: Hangul non fa parte dello standard cinese; Hangul è coreano. Lingua coreana fa uso Hanja ( "scrittura cinese"), ma poco e solo per alcune cose tradizionali (come lo scorso nomi, monumenti, luoghi ...), che non può essere trascritto in Hangul. L'OP ha chiesto informazioni sul cinese in modo specifico, quindi non era necessario che il rispondente includesse Hangul. :-)
omninonsense

1
L'elenco sembra non coprire la punteggiatura ("。").
Michał Woliński

1
@ MichałWoliński Simboli CJK e l' intervallo di punteggiatura è 3000-303F
Mariano

Ho appreso che l'estensione A degli ideogrammi unificati CJK va da 3400 a 4dbf anziché da 3400 a 4dff.
Lerner Zhang

48

Unicode attualmente ha 74605 caratteri CJK. I caratteri CJK non includono solo i caratteri usati dal cinese, ma anche dal giapponese Kanji, dal coreano Hanja e dal vietnamita Chu Nom . Alcuni caratteri CJK non sono caratteri cinesi.

1) 20941 caratteri dal blocco CJK Unified Ideographs .

Il codice punta da U + 4E00 a U + 9FCC.

  1. U + 4E00 - U + 62FF
  2. U + 6300 - U + 77FF
  3. U + 7800 - U + 8CFF
  4. U + 8D00 - U + 9FCC

2) 6582 caratteri dal blocco Ext A CJKUI .

Punti di codice da U + 3400 a U + 4DB5 . Unicode 3.0 (1999).

3) 42711 caratteri dal blocco CJKUI Ext B .

Il codice punta da U + 20000 a U + 2A6D6. Unicode 3.1 (2001).

  1. U + 20000 - U + 215FF
  2. U + 21600 - U + 230FF
  3. U + 23100 - U + 245FF
  4. U + 24600 - U + 260FF
  5. U + 26100 - U + 275FF
  6. U + 27600 - U + 290FF
  7. U + 29100 - U + 2A6DF

3) 4149 caratteri dal blocco CJKUI Ext C .

Il codice punta da U + 2A700 a U + 2B734 . Unicode 5.2 (2009).

4) 222 caratteri dal blocco CJKUI Ext D .

Punti di codice da U + 2B740 a U + 2B81D . Unicode 6.0 (2010).

5) Blocco CJKUI Ext E.

Prossimamente

Se quanto sopra non è abbastanza spaghetti, dai un'occhiata ai problemi noti . Buon divertimento =)


1
Ciao, puoi fare un esempio di un ideogramma CJK (preferibilmente dal piano di base) che non è un carattere cinese? Pensavo che i caratteri di altre lingue (giapponese, coreano) che non sono anche caratteri cinesi compaiano in un altro blocco (ad esempio il blocco Hangul Jamo, nel caso del coreano) ...
Adam Burley

Prova a guardare "Gukja", "Kokuji" e "Chữ Nôm". U + 4E44, 乄, è un carattere CJK solo giapponese.
Ṃųỻịgǻňạcểơửṩ

21

Gli intervalli esatti per i caratteri cinesi (eccetto le estensioni) sono [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].

  1. [\u2e80-\u2fd5]

CJK Radicals Supplement è un blocco Unicode contenente forme alternative, spesso posizionali, dei radicali Kangxi. Vengono utilizzate le intestazioni negli indici dei dizionari e in altre raccolte di ideogrammi CJK organizzate in base a tratti radicali.

  1. [\u3190-\u319f]

Kanbun è un blocco Unicode contenente caratteri di annotazione utilizzati nelle copie giapponesi di testi classici cinesi, per indicare l'ordine di lettura.

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A è un blocco Unicode contenente rari ideogrammi Han.

  1. [\u4E00-\u9FCC]

CJK Unified Ideographs è un blocco Unicode contenente gli ideogrammi CJK più comuni utilizzati nel cinese moderno e nel giapponese.

  1. [\uF900-\uFAAD]

CJK Compatibility Ideographs è un blocco Unicode creato per contenere caratteri Han codificati in più posizioni in altre codifiche di caratteri stabilite, oltre alle loro assegnazioni CJK Unified Ideographs, al fine di mantenere la compatibilità di andata e ritorno tra Unicode e quelle codifiche.

Per i dettagli fare riferimento a qui , e le estensioni sono fornite in altre risposte.


Potrebbe colui che ha svalutato questa risposta, per favore, dirmi il motivo?
Lerner Zhang,

2
Non ho downvote, ma per quanto riguarda l'estensione B, C, D ed E?
Suragch,

@ Suragch Queste estensioni sono state fornite correttamente in altre risposte, quindi non è necessario che le riscriva. Ho solo separato chiaramente gli intervalli intermedi.
Lerner Zhang

1. la gamma di CJK Radicals Supplement è 2E80—2EFF 2.Kangxi Radicals non è un carattere cinese, è un componente grafico di un carattere cinese, è usato specialmente per esprimere i radicali, .eg ⼻ (U + 2F3B) e 彳 (U + 5F73 ), ⻜ (U + 2EDC) e 飞 (U + 98DE) 3. Se pensi che i kanbun siano caratteri cinesi, perché non gli ideogrammi di compatibilità CJK? Perché non lettere e mesi CJK allegati?
Voyager

@rambler Grazie per il tuo consiglio. Penso che quando elaboriamo il carattere cinese dovremmo considerare i radicali Kangxi e il Kanbun. Gli ideogrammi di compatibilità CJK sono buoni, ma lettere e mesi CJK allegati sono troppo rari e non penso che dovremmo considerarli.
Lerner Zhang

9

Unicode versione 11.0.0

In Unicode gli script cinese, giapponese e coreano (CJK) condividono uno sfondo comune, noti collettivamente come caratteri CJK.

Questi intervalli spesso contengono punti di codice non assegnati o riservati (come U + 2E9A , U + 2EF4 - 2EFF),

caratteri cinesi

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • Nel blocco CJK Unified Ideographs , ho notato che molte risposte usano il limite superiore 9FCC, ma U + 9FCD (鿍) è effettivamente un carattere cinese. E tutti i caratteri in questo blocco sono caratteri cinesi (usati anche in giapponese o coreano ecc.).
  • La maggior parte dei caratteri in CJK Unified Ideograohs Ext (tranne Ext F, solo il 17% in Ext F sono caratteri cinesi), sono caratteri cinesi tradizionali, che sono usati raramente in Cina.
  • 〇 è la forma in caratteri cinesi di zero e ancora in uso oggi

Quindi la gamma è

[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]

Caratteri CJK ma mai usati in cinese

Sono Common Han utilizzati solo per compatibilità.

È quasi impossibile vederli apparire in qualsiasi libro, articolo, scritto cinese, ecc.

tutti i caratteri qui hanno un corrispondente carattere cinese identico al glifo. Come 金 (U + F90A) e 金 (U + 91D1), sono identici in Glyph.

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

Simboli correlati a CJK

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • alcuni blocchi come Hangul Compatibility Jamo vengono abbandonati a causa di nessuna relazione con il cinese.
  • I radicali Kangxi non sono caratteri cinesi, è una componente grafica di caratteri cinesi, sono usati specialmente per esprimere i radicali, .eg ⼻ (U + 2F3B) e 彳 (U + 5F73), ⻜ (U + 2EDC) e 飞 (U + 98DE)

Un'altra punteggiatura comune appare in cinese

Questa è una vasta gamma, alcuni segni di punteggiatura forse non sono mai stati usati, alcuni segni di punteggiatura come ……”“sono usati così tanto in cinese.

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

Ci sono anche molti simboli legati al cinese, come i simboli dell'esagramma di Yijing o Kanbun , ma è comunque fuori tema. Scrivo caratteri non cinesi in CJK per avere una migliore spiegazione di cosa sono i caratteri cinesi. E gli intervalli sopra coprono già quasi tutti i caratteri che compaiono nella scrittura cinese tranne la matematica e altre notazioni speciali.

Supplementare

Simboli CJK e punteggiatura

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

Forme a mezza larghezza e a larghezza intera

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

Fare riferimento

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 (in lingua cinese, notare la barra laterale destra)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 % 84% 8F% E6% 96% 87% E5% AD% 97 (notare la tabella in basso)
  3. http://www.unicode.org

2

I blocchi di codice Unicode forniti dalle altre risposte coprono sicuramente la maggior parte dei caratteri Unicode cinesi, ma controlla anche alcuni di questi altri blocchi di codice.

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

Vedi la mia discussione più completa qui . E questo sito è comodo per navigare in Unicode.


1

Per riassumere, sembra che questi siano loro:

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.