ЦНС 11643

Набор символов CNS 11643 (китайский национальный стандарт 11643), также официально известный как китайский стандартный код обмена или CSIC ^[1] ( китайский :中文標準交換碼), является официальным стандартным набором символов Тайваня (Китайская Республика). На практике варианты связанного набора символов Big5 являются стандартом де-факто .

CNS 11643 разработан в соответствии с ISO 2022. Он содержит 16 плоскостей, поэтому максимально возможное количество кодируемых символов составляет 16×94×94 = 141376. Плоскости с 1 по 7 определены стандартом; с 2007 года плоскости с 10 по 15 также определены стандартом. ^[2]^{: 115–122} До этого плоскости с 12 по 15 (35344 кодовых точек) были специально предназначены для определяемых пользователем символов. ^{[ необходима цитата ]} В отличие от CCCII , кодирование вариантных символов в CNS 11643 не связано.

EUC-TW — это закодированное представление CNS 11643 и ASCII в форме Extended Unix Code (EUC). Другие кодировки, способные представлять определенные плоскости CSIC, включают ISO-2022-CN (плоскости 1 и 2) и ISO-2022-CN-EXT (плоскости 1–7).

История

Первое издание стандарта было опубликовано в 1986 году и включало плоскости 1 и 2, полученные из уровней 1 и 2 Big5 , с некоторым переупорядочением из-за исправленного количества штрихов, двух пропущенных повторяющихся символов и добавления 213 классических радикалов в плоскости 1 (из 214 радикалов Канси , из которых 210 фактически являются дубликатами существующих символов Big5, а оставшиеся три — символами HKSCS ; ^[3] см. также Радикалы Канси (блок Unicode) ). Расширения стандарта впоследствии были опубликованы в 1988 году (6319 символов, занимающих плоскость 14) и 1990 году (7169 символов, занимающих плоскость 15). ^[2]^{: 115–122}

Unicode 1.0.0, хотя он еще не включал hanzi , включал символы для совместимости с CNS 11643: блок CJK Compatibility Forms был озаглавлен «CNS 11643 Compatibility» в Unicode 1.0.0. ^[4] Когда набор Unicode CJK Unified Ideographs компилировался для Unicode 1.0.1, национальные органы представили наборы символов в CJK Joint Research Group для включения. Представленная версия CNS 11643 включала расширение плоскости 14, в дополнение к дополнительным желаемым символам, добавленным к плоскости 14 (после 68–21, последней использованной кодовой точки в стандартной версии расширения). ^[2]^{: 179–180}

Во втором издании стандарта, опубликованном в 1992 году, гораздо более обширная коллекция ханзи была определена в семи плоскостях. Подмножество расширения плоскости 14 1988 года, включая 6148 кодовых точек от 01-01 до 66-38, стало плоскостью 3 (с оставшимися 171 символом, кодовыми точками от 66-39 до 68-21, которые были распределены между плоскостью 4). Расширение плоскости 15 не было включено, хотя 338 его символов были включены между плоскостями с 4 по 7. ^[2]^{: 115–122}

Третье издание стандарта, опубликованное в 2007 году, добавило знак евро , идеографический ноль, кану и расширения к существующей поддержке бопомофо и латинского алфавита в плоскости 1. Оно ввело плоскости с 10 по 14, содержащие дополнительные ханзи, и включило существующее расширение плоскости 15 в сам стандарт (с пробелами, оставленными там, где символы уже существовали в плоскостях с 4 по 7). Оно также добавило 128 дополнительных ханзи в плоскость 3, начиная с кодовой точки 68–40. ^[2]^{: 115–122}

По состоянию на 2017 год ^{[обновлять]}существует несколько тысяч символов CNS 11643, не имеющих соответствующих символов Unicode, в основном в плоскостях с 10 по 14; они сопоставлены с дополнительной областью частного использования Unicode . ^[5]

Связь с Big5

Уровни 1 и 2 кодировки Big5 в основном соответствуют плоскостям 1 и 2 CNS 11643, соответственно, с редкими различиями в порядке и с двумя дубликатами ханзи, существующими в Big5, но не в CNS 11643. Их можно сопоставить с помощью списка диапазонов. ^[6]^[7] Однако 213 классических радикалов в плоскости 1 CNS 11643 являются дополнительными к символам, доступным в Big5 (хотя их можно с потерей данных сопоставить с соответствующими символами ханзи в Big5 или HKSCS), ^[3] и дополнительные символы были добавлены в плоскость 1 CNS 11643 в 2007 году. ^[2]^{: 115–122} Вариант Big5-2003 Big5 определяется как частичное кодирование CNS 11643.

В репертуаре Big5 hanzi только один символ плоскости 1 традиционно отображается в Unicode иначе, чем соответствующий символ из первых двух плоскостей CNS 11643: в U+5F5D (彝), тогда как его аналог в плоскости 1 CNS отображается в связанный вариант в U+5F5E (彞); ^[8] U+5F5D отдельно включен в плоскость 3 CNS 11643. ^[3] Однако некоторые вариантные отображения для Big5, такие как некоторые, определенные IBM , включают U+5F5E, а не U+5F5D. ^[9] Аналогично, один символ из уровня 2 Big5 (включая его вариант IBM) ^[10] отображается в другую кодовую точку Unicode, чем его аналог в плоскости 2 CNS 11643: в U+5284 (劄), тогда как база данных Unihan в настоящее время отображает символ CNS 11643 в U+7B9A (箚); U+5284 появляется в CNS 11643 плоскости 14. ^[3]

Ссылки

Эта страница основана на информации с официального сайта CNS.

^ ECMA (1993-01-21). Китайский стандартный код обмена (CSIC) - Набор 1 (PDF) . ITSCJ/ IPSJ . ISO-IR -171.
^ abcdef Lunde, Ken (2008). "3. Стандарты набора символов". CJKV Information Processing (2-е изд.). O'Reilly Media . ISBN 9780596514471.
^ abcd Лунде, Кен (2022-11-30). "Предложение по улучшению временного свойства kBigFive" (PDF) . UTC L2/22-288.
^ "3.8: Поблочные диаграммы" (PDF) . Стандарт Unicode . версия 1.0. Консорциум Unicode .
^ "CNS 11643 в дополнительной зоне частного использования Unicode". [китайский mac] . Совет по восточноазиатским исследованиям Йельского университета.
^ Лунде, Кен (18 декабря 1995 г.). "4.3: Проблемы совместимости набора символов CJK — китайский (Тайвань)". CJK.INF Версия 1.9.
^ Чжу, ХФ.; Ху, ДЙ.; Ван, ЗГ.; Као, ТК.; Чанг, ВЧ.; Криспин, М. (1996). "RFC 1922: Кодирование китайских символов для интернет-сообщений". Запросы на комментарии . IETF .
^ Лунде, Кен (2018-02-15). «Изучение IICore — часть 4». Блог CJK Type . Adobe Inc.
^ "ibm-950_P110-1999 (ведущий байт 0xC2)". Международные компоненты для Unicode Converter Explorer . Консорциум Unicode . Архивировано из оригинала 2021-07-12.
^ "ibm-950_P110-1999.ucm". Репозиторий данных ICU . IBM / Unicode Consortium . 2007.<U5284> \xE3\x5A |0

Внешние ссылки

CNS 11643 официальный веб-сайт
Текущие открытые данные CNS 11643, включая картографические данные
Отображения Unicode Consortium для CNS 11643-1986: плоскости 1 и 2, а также плоскость 14 1988 года (не плоскость 14 2007 года) с расширениями. Использует одну префиксную шестнадцатеричную цифру для обозначения плоскости.
Сопоставления CNS 11643 из International Components for Unicode (ICU):
- "CNS-11643-1992": исходная версия, текущая версия. Исходная версия отображения включает стандартные плоскости 1–7, но включает компоновку плоскости 15 как плоскости 9; текущая версия включает только плоскости 1 и 2. Использует префиксы 0x81–0x89 для обозначения плоскости.
- «EUC-TW-2014»: стандартные назначения для плоскостей 1–7 и 15, а также корпоративные назначения IBM в плоскостях 12 и 13. Коды CNS в формате EUC с двухбайтовой плоскостью 1.
Кодовые таблицы CNS-11643, зарегистрированные в ISO-IR : плоскость 1, плоскость 2, плоскость 3, плоскость 4, плоскость 5, плоскость 6, плоскость 7