Код китайских символов для обмена информацией ( китайский :中文資訊交換碼) или CCCII — это набор символов , разработанный Группой анализа китайских символов на Тайване . Впервые он был опубликован в 1980 году и значительно расширен в 1982 и 1987 годах. [1]
Он используется в основном библиотечными системами . [2] [3] Это одна из самых ранних и самых сложных кодировок традиционного китайского языка (до создания Big5 в 1984 году и CNS 11643 в 1986 году). [2] Он отличается уникальной системой кодирования упрощенных версий и других вариантов основного набора символов ханьцзы . [1]
Вариант более ранней версии CCCII используется Библиотекой Конгресса как часть MARC-8 под названием « Код восточноазиатских символов» ( EACC , ANSI/NISO Z39.64), [4] где он составляет часть MARC 21. Поддержка JACKPHY . Однако EACC содержит меньше символов, чем самые последние версии CCCII. [5] [1] Работа в Apple , основанная на тезаурусе CJK Research Libraries Group , который использовался для поддержки EACC, был одним из прямых предшественников набора Unihan Unicode . [6]
CCCII спроектирован как набор из 94 n , как определено ISO/IEC 2022 . [1] Каждый китайский иероглиф представлен 3-байтовым кодом, в котором каждый байт является 7-битным, от 0x21 до 0x7E включительно. Таким образом, максимальное количество китайских иероглифов, представленных в CCCII, составляет 94×94×94 = 830584. На практике количество символов, кодируемых CCCII, будет меньше этого числа, поскольку варианты символов кодируются в связанных плоскостях ISO 2022 под CCCII, поэтому большинство кодовых точек придется зарезервировать для вариантов.
Однако на практике иногда используются байты за пределами этих диапазонов. Код 0x212320 используется некоторыми реализациями в качестве идеографического пространства . [8] Спецификация CCCII, используемая библиотеками Гонконга, использует коды, начинающиеся с 0x2120, для знаков препинания и символов. [9] Первый байт 0x7F используется в некоторых вариантах для кодирования кодов для некоторых других недоступных Unified Repertoire and Ordering или CJK Unified Ideographs Extension A hanzi (например, 0x7F3449 для U+3449 или 0x7F796E для U+796E; [9] обратите внимание, как байты продолжения соответствуют коду UCS-2BE ), и это могут быть байты за пределами диапазона 0x21–0x7E или даже 0x20–0x7F, например 0x7F551C для U+551C, [10] 0x7F5AA4 для U+5AA4 [10] или 0x7F8EDA для U +8ЭДА. [9]
CCCII/EACC не зарегистрирован в Международном реестре наборов кодированных символов для использования с Escape-последовательностями [ 11] и, как таковой, не имеет стандартного escape-обозначения для использования с ISO 2022. MARC-8 назначает EACC для частного использования. F -байт 0x31 ( 1
) в реализации ANSI X3.41 (ISO 2022). [12]
94 плоскости ISO 2022 сгруппированы в 16 слоев по 6 плоскостей в каждой (кроме слоя 16, который содержит четыре плоскости 91–94). [1] Уровень 1 содержит как символы, не являющиеся ханзи, так и символы ханзи , при этом не-ханзи и наиболее часто используемые ханзи размещаются в плоскости 1, а остальные пять плоскостей состоят из менее распространенных ханзи. [1] Уровень 2 содержит упрощенные китайские иероглифы , номера строк и ячеек которых совпадают с номерами их традиционных китайских эквивалентов в слое 1. Слои с 3 по 12 содержат дополнительные варианты форм , номера строк и ячеек которых гомологичны первым двум слоям. [13]
Последние четыре слоя используются для других целей. В частности, слой 13 содержит дополнительные символы для поддержки японского языка ( кана и японский кокудзи ), а слой 14 содержит дополнительные символы для поддержки корейского языка ( хангыль ). [13] Уровень 15 не используется (зарезервирован), а уровень 16 используется для других символов. [1]
Этот отличительный дизайн подвергся критике со стороны Кристиана Виттерна из Международного исследовательского института дзен-буддизма при Университете Ханазоно , который утверждает, что отношения вариантов символов «очень сложны и не могут быть выражены в фиксированной, одномерной, жестко запрограммированной кодовой таблице». ". [3] Кен Лунде описывает его как «один из наиболее продуманных стандартов набора символов из Тайваня», описывая его структуру как «вызывающую истинное восхищение», но делая вывод, что замена форм вариантами OpenType может обеспечить тот же уровень функциональности. [1]
CCCII определяет примерно 53 940 кодовых точек по состоянию на издание 1987 года, хотя в более позднем проекте 1989 года это число расширено до 75 684 кодовых точек (включая 44 167 уникальных символов и 31 517 вариантов). EACC, вариант, используемый Библиотекой Конгресса, включает лишь меньший набор из 15 686 символов. [1]
По состоянию на 1995 год CCCII или EACC использовался в основном в библиотеках США , Гонконга и Тайваня . Хотя CCCII обещала покрытие Pan- CJK , ее поддержка ограничивалась специализированным оборудованием; трудности с определением того, когда следует использовать корневой символ, а не вариантный, усугубляемые отсутствием твердо установленных справочных глифов, еще больше ограничивали его распространение, в результате чего Big5 чаще использовался для китайского языка на тех территориях, за пределами использования библиотеки (поскольку Unicode еще не стал широко распространенное в то время). [3]
По состоянию на 2009 год [обновлять]EACC все еще широко используется в специализированных библиографических целях. [1] Он также был важным предшественником Unicode: [1] работа в Apple над базой данных перекрестных ссылок символов CJK на основе тезауруса CJK Research Libraries Group , используемого для поддержки EACC, была непосредственно включена в разработку Unicode . Набор Унихан . [6] Символы ханзи в Юникоде ссылаются на соответствующие им коды CCCII и EACC в базе данных Unihan , в ключах kCCCII
и kEACC
; [4] однако, поскольку критерии унификации символов Unicode (основанные на критериях, используемых японским JIS X 0208 и на критериях, разработанных Ассоциацией общего китайского кода в Китае) отличаются от критериев, используемых CCCII, не все варианты символов сопоставляются индивидуально. . [6] Таблицы сопоставления ханзи, хангыля , каны и знаков препинания между EACC и Unicode доступны в Библиотеке Конгресса. [14]
Ниже приведены таблицы пунктуации, символов, каны и хангыль джамо , показывающие символы и возможные сопоставления Юникода. Там, где это возможно, они сопоставляются с опубликованными картографическими данными.
Сопоставления Юникода для слогов хангыля ниже для краткости опущены, но задокументированы Библиотекой Конгресса. [15] Числа ханзи CCCII исчисляются десятками тысяч [1] [3] и не показаны ниже (за исключением случаев, когда они также включены в диапазон не-ханзи в виде радикалов или цифр), но сопоставления с Unicode доступны на веб-сайте База данных Unihan [4] и другие источники. [10] [9]
Хотя CCCII обычно представляет собой набор из 94 n , [1] и поэтому обычно не использует коды, начинающиеся с 0x2120, [10] следующая раскладка используется в варианте, используемом библиотеками в Гонконге: [9]
В строке 1 плоскости 1, которая зарезервирована для управляющих кодов, символы не назначены . [1]
Эта строка содержит математические операторы. EACC оставляет эту строку пустой. [14] В следующей таблице приведены ссылки на источники из Тайваня. [2] [10]
В следующей таблице использованы данные CCCII, предоставленные Гонконгской группой инновационных пользователей, группой библиотек Гонконга и размещенные на базе Университета Гонконга . [17] [9] В этой строке используется совершенно другой макет:
В эту строку входят знаки препинания, западные арабские цифры и римские буквы. [10] Сравните строку 3 кода Wansung и строку 3 GB 2312 .
Различные варианты по-разному кодируют идеографическое пространство (U+3000) по адресам 0x212320 (что подтверждает спецификация MARC), [8] [9] 0x212321 (который указан в стандарте ANSI и также подтвержден MARC), [8] [ 9] или 0x21635F. [10] EACC включает в этот набор только дефис-минус , круглые скобки и идеографическое пространство. [8]
В EACC эта строка включает в себя несколько символов, отображаемых в области частного использования , которые используются для внутреннего представления компонентов символов с помощью метода ввода RLIN , [18] который используется Библиотекой Конгресса для нелатинской каталогизации. [19] Эти составляющие символы должны использоваться только внутри IME и, если они встречаются где-либо еще, могут быть заменены знаком geta (U+3013), [18] который также включается в эту строку по адресу 0x212A46. Эта строка не назначена в CCCII, [1] , но метка geta также указана в этом месте в некоторых сопоставлениях для CCCII. [10]
Эта строка содержит различные знаки препинания, используемые в китайском языке, [1] [8] в дополнение к другим символам. CCCII включает в себя набор из 35 знаков препинания в этой строке. [1] EACC включает в эту строку только 13 символов (показано в рамке ниже). [8]
В этих рядах содержатся китайские радикалы , [1] римские цифры , [10] небесные стебли и земные ветви . [16]
В эту строку входят китайские цифры и символы бопомофо . [1] EACC включает только идеографический ноль (〇). [8]
Эта строка содержит контрольный знак ( комэ дзируши ). [10]
Вариант, используемый библиотеками Гонконга, не включает символы бопомофо в строке 1 плоскости 15, но включает их в другом макете в плоскости 7. [9]
Эта строка находится в плоскости 73, первой плоскости слоя 13, который содержит символы, включенные для поддержки японского языка . [13] Там есть знаки препинания. [8] Сравните строку 1 из JIS X 0208 , в которой эта строка имеет тенденцию повторять расположение входящих в нее символов.
Эта строка содержит хирагану . Сравните строку 4 стандарта JIS X 0208 .
В этой строке содержится катакана . Сравните строку 5 JIS X 0208 , которой соответствует эта строка, не считая добавления отдельных дакутен и хандакутен .
Эти строки содержат корейский джамо .
В этой строке содержатся несколько исторических символов хангыля , которые больше не используются регулярно. Некоторые из них привязаны к Зоне частного использования . [18]
В этом ряду находится дополнительная катакана , используемая для написания иностранных фонем. [10]
CCCII: Самая ранняя (и самая сложная) традиционная китайская кодировка... используемая в основном в библиотечных системах.... Карта для "CCCII" предоставлена тайваньским проектом
Koha
.
{{cite web}}
: CS1 maint: архивная копия в заголовке ( ссылка )