stringtranslate.com

ИСО-ИР-165

Основной китайский набор CCITT [ 2] представляет собой многобайтовый набор графических символов для китайской связи, созданный для Консультативного комитета по международной телефонии и телеграфу (CCITT) в 1992 году . [3] Он определен в ITU T.101 , приложение C, который кодифицирует синтаксис данных 2 Videotex . [2] Он зарегистрирован в реестре ISO-IR для использования с ISO/IEC 2022 как ISO-IR-165 , [4] и кодируется в кодовой версии ISO-2022-CN-EXT . [1]

Это расширенная модификация GB/T 2312-80 , соответствующая объединению стандартов GB материкового Китая GB 6345.1-86 и GB 8565.2-88 с некоторыми дальнейшими модификациями и расширениями. Подмножество расширений GB 6345.1 включено в GB 18030 , а GB 8565.2 служит ссылкой на источник в материковом Китае для некоторых унифицированных иероглифов CJK .

ГБ 6345.1

GB 6345.1-86 ( Набор точечно-матричных шрифтов размером 32 × 32 китайских иероглифов для обмена информацией ) включает как исправление , так и расширение для GB 2312. [3] Исправление изменяет следующие два символа:

  1. ^ Соответствует U+FF47 в Юникод; однако измененный ссылочный глиф также может соответствовать U + 0261 ɡ. . Ниже показано, как U+0261 обычно сопоставляется с/из GB/T 6341.1 и как он сопоставляется с/из ISO-IR-165. GB 18030 заменяет этот символ обратно на исходный зацикленный глиф [5] . [6]
  2. ^ Неизмененный ссылочный глиф — это традиционный китайский иероглиф, соответствующий U+937E . Рассматриваемый символ обычно заменяется на 钟 ( U+949F , также упрощение 鐘) в упрощенном китайском языке, за исключением имен людей; измененный глиф представляет собой альтернативную упрощенную форму, соответствующую U+953A .

Развернутые реализации, включающие GB 2312, такие как кодовая страница Windows 936 , обычно следуют этим исправлениям при сопоставлении 79-81 с U+953A. [7]

Расширение добавляет символы ISO 646-CN половинной ширины в строке 10 (в дополнение к существующим символам полной ширины в строке 3) и расширяет набор из 26 символов пиньинь , не входящих в ASCII, в строке 8 шестью дополнительными такими символами. Эти расширения GB 6345.1 также включены в GB/T 12345 , традиционный китайский аналог GB 2312, в дополнение к 29 формам вертикального представления в строке 6. [3] [8]

Более поздний GB/T 6345.1-2010, опубликованный в 2011 году, официально добавляет формы половинной ширины из 32 символов пиньинь (включая шесть новых дополнений) в строке 8 к строке 11. [9] Это дополнение не представлено в GB 18030. [6]

Шесть дополнительных символов пиньинь из GB 6345.1 и формы вертикального представления из GB 12345 — но не формы половинной ширины — включены в классическую кодировку Mac OS для упрощенного китайского языка (модификация EUC-CN ), [10] , а также как двухбайтовые коды в GB 18030 . [6] Дополнительные символы пиньинь: [10]

  1. ^ Сопоставлено с областью частного использования U+E7C7 кодовой страницей Windows 936 [11] и первым (2000 г.) изданием GB 18030 ; в это были внесены поправки в издании 2005 года. [6]
  2. ^ Этот составной символ был добавлен в Unicode 3.0. До этого этот символ был сопоставлен Apple с его композиционной последовательностью (т. е. U+006E U+0300 ). [10] Это изменение предшествовало стабилизации форм нормализации Unicode , которая была введена в Unicode 3.1. [12] Кодовая страница Windows 936 сопоставляет его с U +E7C8 . [11]
  3. ^ Соответствует неизмененному ссылочному глифу для 03-71 (см. выше), являясь зацикленной буквой g, несмотря на то, что обычно он отображается в U + 0261. Сопоставления, используемые для ISO-IR-165, различаются (см. ниже). GB 18030 заменяет 03-71 обратно на зацикленную g и делает эту g открытой. [6]

Эти расширения и модификации GB 2312 были впервые представлены в GB 5007.1-85 в 1985 году.

ГБ 8565.2

GB 8565.2-88 ( Обработка информации. Наборы кодированных символов для текстовой связи. Часть 2: Графические символы ) определяет расширение для GB 2312, добавляя 705 символов между строками 13–15 и 90–94, из которых 69 (все в строке 15). не являются ханзи. Он включает исправления GB 2312 из GB 6345.1, но не его расширения. [3]

База данных Unihan ссылается на GB 8565.2 как на материковый китайский источник нескольких ханьцзы, включенных в Unicode . Его исходное сокращение Unihan — G8. [2]

Изменения МККТТ

ISO-IR-165 включает расширения GB 2312 из GB 6345.1-86 и GB 8565.2-88. [3] Кроме того, он добавляет еще 161 иероглиф (включая 139 ханьцзы, определенных как «общекитайские иероглифы и их варианты»). [3] [4] Эти расширения CCITT hanzi иногда ошибочно принимались за стандартные символы GB 8565.2, в том числе в предыдущих версиях базы данных Unihan . [2] Всего в наборе 8446 символов.

В строку 6 включено несколько узорчатых полуграфических символов . [4] Это противоречит формам вертикального представления, включенным в другие расширения, такие как Mac OS Simplified Chinese [10] и GB 18030. [6]

Исправления GB 6345.1 к GB 2312 применяются, но два сопоставления Unicode меняются местами по сравнению с другими кодировками, которые включают GB 2312 с расширениями GB 6345.1. В таблице ниже показаны сопоставления и соответствующие им глифы, включая GB 18030 :

Рекомендации

  1. ^ Аб Чжу, HF.; Ху, Д.Ю.; Ван, ЗГ .; Као, ТК; Чанг, ЧМ.; Криспин, М. (1996). «Китайская кодировка символов для интернет-сообщений». Запросы на комментарии . IETF . дои : 10.17487/rfc1922. РФК 1922.
  2. ^ abcd Чунг, Джемин (24 января 2018 г.). «Псевдо-персонажи G8» (PDF) . ISO/IEC JTC 1/SC 2 /WG 2/ IRG N2276.
  3. ^ abcdef Лунде, Кен (2009). Обработка информации CJKV: китайские, японские, корейские и вьетнамские вычисления (2-е изд.). Севастополь, Калифорния : О'Рейли . стр. 94–111. ISBN 978-0-596-51447-1.
  4. ^ abcd CCITT (13 июля 1992 г.). Коды китайского графического набора символов для связи (PDF) . ITSCJ/ IPSJ . ИСО-ИК -165.
  5. ^ abc Китайская ассоциация по стандартизации. Кодированный набор китайских графических символов для обмена информацией (PDF) . ITSCJ/ IPSJ . ИСО-ИК -58.
  6. ^ abcdefghi Управление стандартизации Китая (SAC) (18 ноября 2005 г.). GB 18030-2005: Информационные технологии — набор китайских кодированных символов.
  7. ^ Стил, Шон (2000). «cp936 в таблицу Юникода». Microsoft , Консорциум Unicode .
  8. ^ Лунде, Кен (1998). Приложение F: GB/T 12345 (PDF) . О'Рейли Медиа . ISBN 9781565922242. {{cite book}}: |work=игнорируется ( помощь )
  9. ^ ab Администрация стандартизации Китая (SAC) (10 января 2011 г.). GB/T 6345.1-2010 信息技术 汉字编码字符集(基本集) 32点阵字型 第1部分宋体 (на китайском (Китай)). Китай.{{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  10. ^ abcdef «Сопоставление (внешняя версия) упрощенной китайской кодировки Mac OS с Unicode 3.0 и более поздних версий». Apple, Inc.
  11. ^ АБ Microsoft . «КОДОВАЯ СТРАНИЦА 936: КНР ГБК (XGB) — ANSI, OEM». Консорциум Юникод .
  12. ^ «Политика стабильности кодировки символов Unicode» . Консорциум Юникод. 23 июня 2017 г.
  13. ^ Вишванадха, Рагурам (30 августа 2000 г.). «Таблица Unicode в ISO-IR-165». Международные компоненты для Unicode . ИБМ .(Примечание: коды указаны в исходнике в 7-битном виде: для формы EUC к каждому байту прибавляйте 0x80, для формы kuten отнимайте 0x20)

Внешние ссылки