stringtranslate.com

Код китайских символов для обмена информацией

Код китайских символов для обмена информацией ( китайский :中文資訊交換碼) или CCCII — это набор символов , разработанный Группой анализа китайских символов на Тайване . Впервые он был опубликован в 1980 году и значительно расширен в 1982 и 1987 годах. [1]

Он используется в основном библиотечными системами . [2] [3] Это одна из самых ранних и самых сложных кодировок традиционного китайского языка (до создания Big5 в 1984 году и CNS 11643 в 1986 году). [2] Он отличается уникальной системой кодирования упрощенных версий и других вариантов основного набора символов ханьцзы . [1]

Вариант более ранней версии CCCII используется Библиотекой Конгресса как часть MARC-8 под названием « Код восточноазиатских символов» ( EACC , ANSI/NISO Z39.64), [4] где он составляет часть MARC 21. Поддержка JACKPHY . Однако EACC содержит меньше символов, чем самые последние версии CCCII. [5] [1] Работа в Apple , основанная на тезаурусе CJK Research Libraries Group , который использовался для поддержки EACC, был одним из прямых предшественников набора Unihan Unicode . [6]

Дизайн

Девять символов из реализаций CCCII или EACC, которые закодированы как варианты劍 ( палка о двух концах ). Девятый из них, 釖, обычно является вариантом 刀. [7]

Диапазоны байтов

CCCII спроектирован как набор из 94 n , как определено ISO/IEC 2022 . [1] Каждый китайский иероглиф представлен 3-байтовым кодом, в котором каждый байт является 7-битным, от 0x21 до 0x7E включительно. Таким образом, максимальное количество китайских иероглифов, представленных в CCCII, составляет 94×94×94 = 830584. На практике количество символов, кодируемых CCCII, будет меньше этого числа, поскольку варианты символов кодируются в связанных плоскостях ISO 2022 под CCCII, поэтому большинство кодовых точек придется зарезервировать для вариантов.

Однако на практике иногда используются байты за пределами этих диапазонов. Код 0x212320 используется некоторыми реализациями в качестве идеографического пространства . [8] Спецификация CCCII, используемая библиотеками Гонконга, использует коды, начинающиеся с 0x2120, для знаков препинания и символов. [9] Первый байт 0x7F используется в некоторых вариантах для кодирования кодов для некоторых других недоступных Unified Repertoire and Ordering или CJK Unified Ideographs Extension A hanzi (например, 0x7F3449 для U+3449 или 0x7F796E для U+796E; [9] обратите внимание, как байты продолжения соответствуют коду UCS-2BE ), и это могут быть байты за пределами диапазона 0x21–0x7E или даже 0x20–0x7F, например 0x7F551C для U+551C, [10] 0x7F5AA4 для U+5AA4 [10] или 0x7F8EDA для U +8ЭДА. [9]

Взаимодействие с ISO 2022

CCCII/EACC не зарегистрирован в Международном реестре наборов кодированных символов для использования с Escape-последовательностями [ 11] и, как таковой, не имеет стандартного escape-обозначения для использования с ISO 2022. MARC-8 назначает EACC для частного использования. F -байт 0x31 ( 1) в реализации ANSI X3.41 (ISO 2022). [12]

Слои и варианты символов

94 плоскости ISO 2022 сгруппированы в 16 слоев по 6 плоскостей в каждой (кроме слоя 16, который содержит четыре плоскости 91–94). [1] Уровень 1 содержит как символы, не являющиеся ханзи, так и символы ханзи , при этом не-ханзи и наиболее часто используемые ханзи размещаются в плоскости 1, а остальные пять плоскостей состоят из менее распространенных ханзи. [1] Уровень 2 содержит упрощенные китайские иероглифы , номера строк и ячеек которых совпадают с номерами их традиционных китайских эквивалентов в слое 1. Слои с 3 по 12 содержат дополнительные варианты форм , номера строк и ячеек которых гомологичны первым двум слоям. [13]

Последние четыре слоя используются для других целей. В частности, слой 13 содержит дополнительные символы для поддержки японского языка ( кана и японский кокудзи ), а слой 14 содержит дополнительные символы для поддержки корейского языка ( хангыль ). [13] Уровень 15 не используется (зарезервирован), а уровень 16 используется для других символов. [1]

Этот отличительный дизайн подвергся критике со стороны Кристиана Виттерна из Международного исследовательского института дзен-буддизма при Университете Ханазоно , который утверждает, что отношения вариантов символов «очень сложны и не могут быть выражены в фиксированной, одномерной, жестко запрограммированной кодовой таблице». ". [3] Кен Лунде описывает его как «один из наиболее продуманных стандартов набора символов из Тайваня», описывая его структуру как «вызывающую истинное восхищение», но делая вывод, что замена форм вариантами OpenType может обеспечить тот же уровень функциональности. [1]

CCCII определяет примерно 53 940 кодовых точек по состоянию на издание 1987 года, хотя в более позднем проекте 1989 года это число расширено до 75 684 кодовых точек (включая 44 167 уникальных символов и 31 517 вариантов). EACC, вариант, используемый Библиотекой Конгресса, включает лишь меньший набор из 15 686 символов. [1]

Принятие

По состоянию на 1995 год CCCII или EACC использовался в основном в библиотеках США , Гонконга и Тайваня . Хотя CCCII обещала покрытие Pan- CJK , ее поддержка ограничивалась специализированным оборудованием; трудности с определением того, когда следует использовать корневой символ, а не вариантный, усугубляемые отсутствием твердо установленных справочных глифов, еще больше ограничивали его распространение, в результате чего Big5 чаще использовался для китайского языка на тех территориях, за пределами использования библиотеки (поскольку Unicode еще не стал широко распространенное в то время). [3]

По состоянию на 2009 год EACC все еще широко используется в специализированных библиографических целях. [1] Он также был важным предшественником Unicode: [1] работа в Apple над базой данных перекрестных ссылок символов CJK на основе тезауруса CJK Research Libraries Group , используемого для поддержки EACC, была непосредственно включена в разработку Unicode . Набор Унихан . [6] Символы ханзи в Юникоде ссылаются на соответствующие им коды CCCII и EACC в базе данных Unihan , в ключах kCCCIIи kEACC; [4] однако, поскольку критерии унификации символов Unicode (основанные на критериях, используемых японским JIS X 0208 и на критериях, разработанных Ассоциацией общего китайского кода в Китае) отличаются от критериев, используемых CCCII, не все варианты символов сопоставляются индивидуально. . [6] Таблицы сопоставления ханзи, хангыля , каны и знаков препинания между EACC и Unicode доступны в Библиотеке Конгресса. [14]

Таблицы пунктуации, символов, кана и джамо

Ниже приведены таблицы пунктуации, символов, каны и хангыль джамо , показывающие символы и возможные сопоставления Юникода. Там, где это возможно, они сопоставляются с опубликованными картографическими данными.

Сопоставления Юникода для слогов хангыля ниже для краткости опущены, но задокументированы Библиотекой Конгресса. [15] Числа ханзи CCCII исчисляются десятками тысяч [1] [3] и не показаны ниже (за исключением случаев, когда они также включены в диапазон не-ханзи в виде радикалов или цифр), но сопоставления с Unicode доступны на веб-сайте База данных Unihan [4] и другие источники. [10] [9]

Набор символов 0x2120 (плоскость 1, строка 0: пунктуация Гонконга)

Хотя CCCII обычно представляет собой набор из 94 n , [1] и поэтому обычно не использует коды, начинающиеся с 0x2120, [10] следующая раскладка используется в варианте, используемом библиотеками в Гонконге: [9]

Набор символов 0x2121 (плоскость 1, строка 1: зарезервирована для элементов управления)

В строке 1 плоскости 1, которая зарезервирована для управляющих кодов, символы не назначены . [1]

Набор символов 0x2122 (плоскость 1, строка 2: математические операторы)

Эта строка содержит математические операторы. EACC оставляет эту строку пустой. [14] В следующей таблице приведены ссылки на источники из Тайваня. [2] [10]

В следующей таблице использованы данные CCCII, предоставленные Гонконгской группой инновационных пользователей, группой библиотек Гонконга и размещенные на базе Университета Гонконга . [17] [9] В этой строке используется совершенно другой макет:

Набор символов 0x2123 (плоскость 1, строка 3: римский и знаки препинания)

В эту строку входят знаки препинания, западные арабские цифры и римские буквы. [10] Сравните строку 3 кода Wansung и строку 3 GB 2312 .

Различные варианты по-разному кодируют идеографическое пространство (U+3000) по адресам 0x212320 (что подтверждает спецификация MARC), [8] [9] 0x212321 (который указан в стандарте ANSI и также подтвержден MARC), [8] [ 9] или 0x21635F. [10] EACC включает в этот набор только дефис-минус , круглые скобки и идеографическое пространство. [8]

  Входит в ЕАКК.

Набор символов 0x212A (плоскость 1, строка 10: внутренние символы IME и метка geta)

В EACC эта строка включает в себя несколько символов, отображаемых в области частного использования , которые используются для внутреннего представления компонентов символов с помощью метода ввода RLIN , [18] который используется Библиотекой Конгресса для нелатинской каталогизации. [19] Эти составляющие символы должны использоваться только внутри IME и, если они встречаются где-либо еще, могут быть заменены знаком geta (U+3013), [18] который также включается в эту строку по адресу 0x212A46. Эта строка не назначена в CCCII, [1] , но метка geta также указана в этом месте в некоторых сопоставлениях для CCCII. [10]

Набор символов 0x212B (плоскость 1, строка 11: знаки препинания)

Эта строка содержит различные знаки препинания, используемые в китайском языке, [1] [8] в дополнение к другим символам. CCCII включает в себя набор из 35 знаков препинания в этой строке. [1] EACC включает в эту строку только 13 символов (показано в рамке ниже). [8]

  Входит в ЕАКК.

Наборы символов 0x212C–0x212E (плоскость 1, строки 12–14: радикалы и порядковые номера)

В этих рядах содержатся китайские радикалы , [1] римские цифры , [10] небесные стебли и земные ветви . [16]

Набор символов 0x212F (плоскость 1, строка 15: китайские цифры и бопомофо)

В эту строку входят китайские цифры и символы бопомофо . [1] EACC включает только идеографический ноль (〇). [8]

  Входит в ЕАКК.

Набор символов 0x272B (плоскость 7, строка 11: контрольная метка)

Эта строка содержит контрольный знак ( комэ дзируши ). [10]

Набор символов 0x272E–0x272F (плоскость 7, строки 14–15: альтернативный бопомофо)

Вариант, используемый библиотеками Гонконга, не включает символы бопомофо в строке 1 плоскости 15, но включает их в другом макете в плоскости 7. [9]

Набор символов 0x6921 (плоскость 73, строка 1: японская пунктуация)

Эта строка находится в плоскости 73, первой плоскости слоя 13, который содержит символы, включенные для поддержки японского языка . [13] Там есть знаки препинания. [8] Сравните строку 1 из JIS X 0208 , в которой эта строка имеет тенденцию повторять расположение входящих в нее символов.

Набор символов 0x6924 (плоскость 73, строка 4: хирагана)

Эта строка содержит хирагану . Сравните строку 4 стандарта JIS X 0208 .

Набор символов 0x6925 (плоскость 73, строка 5: катакана)

В этой строке содержится катакана . Сравните строку 5 JIS X 0208 , которой соответствует эта строка, не считая добавления отдельных дакутен и хандакутен .

Набор символов 0x6F24–0x6F25 (плоскость 79, строки 4–5: джамо)

Эти строки содержат корейский джамо .

Набор символов 0x6F76 (плоскость 79, строка 86: архаичный хангыль)

В этой строке содержатся несколько исторических символов хангыля , которые больше не используются регулярно. Некоторые из них привязаны к Зоне частного использования . [18]

Набор символов 0x7B25 (плоскость 91, строка 5: дополнительная катакана)

В этом ряду находится дополнительная катакана , используемая для написания иностранных фонем. [10]

Смотрите также

Сноски

  1. ^ За пределами диапазона конечных байтов набора ISO 2022 94 n , но отмечено, что оно используется в некоторых реализациях. [8]
  2. ^ Кодирование идеографического пространства, указанное в стандарте ANSI для EACC. [8] Используется как восклицательный знак в CCCII, [10] в дополнение к восклицательному знаку по адресу 0x212B3D. [16] Гонконгский вариант HKIUG CCCII здесь следует за EACC. [9]
  3. ^ В сопоставлениях Encode::HanExtra для этого символа используется U+FE52. [10] Однако здесь появляются следующие ˊ, ˇ и ˋ, [16] которые обозначают остальные три тона для bopomofo . Отображение U+02D9 чаще используется для этого тона в диапазонах кодировок bopomofo, например Big5 . [20]

Рекомендации

  1. ^ abcdefghijklmnopqrs Лунде, Кен (2009). Обработка информации CJKV: китайские, японские, корейские и вьетнамские вычисления (2-е изд.). Севастополь, Калифорния : О'Рейли . стр. 122–124. ISBN 978-0-596-51447-1.
  2. ^ abc Тан, Одри (10 ноября 2007 г.). "Encode::HanExtra - Дополнительные наборы китайских кодировок". CCCII: Самая ранняя (и самая сложная) традиционная китайская кодировка... используемая в основном в библиотечных системах.... Карта для "CCCII" предоставлена ​​тайваньским проектом Koha .
  3. ^ abcd Виттерн, Кристиан (1 мая 1995 г.). «Китайские коды символов: обновление». Международный научно-исследовательский институт дзен-буддизма / Университет Ханазоно . Архивировано из оригинала 12 октября 2004 г.
  4. ^ abc Дженкинс, Джон Х.; Кук, Ричард; Лунде, Кен (05 марта 2020 г.). «База данных Unicode Han (Unihan)». Стандартное приложение Юникод № 38.
  5. ^ «Архивная копия». Архивировано из оригинала 15 июня 2016 г. Проверено 15 июня 2016 г.{{cite web}}: CS1 maint: архивная копия в заголовке ( ссылка )
  6. ^ abc «Приложение E: История объединения Хань» (PDF) . Стандарт Unicode версии 15.0 – Основная спецификация . Консорциум Юникод . 2022.
  7. ^ Словарь Канси, стр. 1296, чар. 1
  8. ^ abcdefghij Библиотека Конгресса (2007-12-05). «Кодовая таблица знаков препинания Восточной Азии». MARC 21 Спецификации для структуры записи, наборов символов и носителей обмена .
  9. ^ abcdefghijklmnopq Рабочая группа по Unicode Гонконгской группы инновационных пользователей. «Кодовая таблица HKIUG для символов CJK: сопоставление с Unicode». Библиотеки Гонконгского университета .
  10. ^ abcdefghijklmnopqrstu vw Тан, Одри; Коха Тайвань. «Карта для CCCII». Кодировать::HanExtra . КПАН .
  11. ^ «2.4: Наборы многобайтовых графических символов» . Международный реестр наборов кодированных символов, которые будут использоваться с escape-последовательностями (ISO-IR) (PDF) . ITSCJ/ IPSJ . п. 14.
  12. ^ Библиотека Конгресса (2007-12-05). «Техника 2: Использование стандартных альтернативных наборов графических символов». MARC 21 Спецификации для структуры записи, наборов символов и носителей обмена .
  13. ^ abc Лунде, Кен (18 декабря 1995 г.). «2.5.2: CCCII». CJK.INF Версия 1.9.
  14. ^ abcdefghijkl Библиотека Конгресса (2007-12-05). «Кодовые таблицы Восточной Азии». MARC 21 Спецификации для структуры записи, наборов символов и носителей обмена .
  15. ^ Библиотека Конгресса (2007-12-05). «Кодовая таблица корейского хангыля». MARC 21 Спецификации для структуры записи, наборов символов и носителей обмена .
  16. ^ abcdefghij Показанные символы частично сопоставлены с репрезентативным шрифтом BDF для CCCII, распространяемым Коичи Ясуокой из Киотского университета.
  17. ^ Гонконгская группа инновационных пользователей (07.01.2013). «Знакомство с группой инновационных пользователей Гонконга». Библиотеки Гонконгского университета .
  18. ^ abc Библиотека Конгресса (2 сентября 2004 г.). «Сводный список символов MARC 21, назначенных области частного использования (PUA)». MARC 21 Спецификации для структуры записи, наборов символов и носителей обмена .
  19. ^ Моррис, Сьюзен (2007). «В поисках ДЖЕКФИ: онлайн-каталог, включающий арабский, иврит и другие алфавиты». Информационный бюллетень Библиотеки Конгресса . Том. 66, нет. 12.
  20. ^ ван Кестерен, Энн. «большая пятерка». Стандарт кодирования . ЧТОРГ .

Внешние ссылки