stringtranslate.com

ДЖИС Х 0201

JIS X 0201 , японский промышленный стандарт, разработанный в 1969 году, был первым японским набором электронных символов, получившим широкое распространение. Набор символов первоначально был известен как JIS C 6220 до реформы категории JIS. Двумя его формами были 7-битная кодировка или 8-битная кодировка, хотя 8-битная форма доминировала до тех пор, пока ее не заменил Unicode (в частности, UTF-8 ). Полное название этого стандарта — 7-битные и 8-битные кодированные наборы символов для обмена информацией ( 7ビット及び8ビットの情報交換用符号化文字集合).

Первые 96 кодов представляют собой вариант ISO 646 , в основном следующий ASCII с некоторыми отличиями, а вторые 96 кодов символов представляют собой фонетические японские знаки катаканы . Поскольку кодировка не обеспечивает никакого способа выражения хираганы или кандзи , она способна выражать только упрощенный письменный японский язык. Тем не менее, это упрощение может представить весь спектр звуков языка. В 1970-х годах это было приемлемо для таких носителей, как компьютерные терминалы с текстовым режимом, телеграммы, квитанции или другие данные, обрабатываемые в электронном виде.

JIS X 0201 был вытеснен последующими кодировками, такими как Shift JIS , которая объединяет этот стандарт и JIS X 0208 , а позже и Unicode .

История

Международный консультативный комитет по телефонии и телеграфии (CCITT) представил код Международного телеграфного алфавита № 2 (ITA2) в качестве международного стандарта, который представлял собой 5-битную латинскую кодировку. Большинство стран имеют свои собственные национальные стандарты, основанные на этом. В Японии Агентство промышленной науки и технологий (AIST) стандартизировало его как 6-битные коды символов JIS C 0803-1961 ( Раскладка клавиатуры и коды для телетайпов ), которые сочетались с символами катаканы. Однако он не соответствовал отраслевым требованиям, поскольку карта символов была маленькой, а расположение кода — непрактичным. AIST рассмотрел практическую кодировку символов, которая заменит различные коды, используемые в Японии. [1]

В 1963 году ISO представила проект ISO R 646 ( 6- и 7-битные кодированные наборы символов для обмена информацией при обработке ). AIST поручила объединение ISO R 646 и картографирования катаканы Японскому обществу обработки информации (IPSJ). IPSJ сформировал комитет по стандартизации кодов. Комитет не принял 6-битную форму проекта ISO, поскольку набор катаканы не вписывался в его карту символов. В раннем проекте JIS маленькие символы катаканы отображались рядом с каждым из их обычных символов катаканы. Было сочтено удобным сортировать по порядку Годзюон (JIS X 0208:1978 выбрал этот порядок). Некоторые члены комитета раскритиковали, что это усложнит механику клавиатур, которые обрабатывают только обычные символы катаканы. В более позднем проекте маленькие символы катаканы были сопоставлены с позициями 0xA7-0xAF.

В проекте ISO 1964 года позиции 0x24 и 0x5c были зарезервированы для первого и второго символов валюты, которые должны были назначаться каждой страной, но в международных коммуникациях считалось слишком опасным использовать символы валют, которые можно было локализовать. У комитета ISO было два варианта: использовать общий символ валюты (¤) или присвоить знакам доллара ($) и фунта (£) постоянные назначения. Было решено, что знак доллара будет присвоен позиции 0x24, а знак фунта — позиции 0x23. Последнее не требовалось в странах, которым не нужен знак фунта. [2] Комитет JIS решил поместить знак иены (¥) в 0x5c (одна из позиций национального использования).

JIS C 6220 ( Коды для обмена информацией , 情報交換用符号) был опубликован в 1969 году. Его номер был изменен на JIS X 0201 в связи с реформой категории JIS в 1987 году, а название было изменено на 7-битное и 8-битное кодирование. наборы символов для обмена информацией (7ビット及び8ビットの情報交換用符号化文字集合) в издании 1990 года.

Набор символов JIS X 0201 широко использовался в Японии. Национальная система передачи банковских данных (全国銀行データ通信システム), крупнейшая система денежных переводов в Японии, была создана в 1973 году. В сообщениях о транзакциях между банками использовалось подмножество JIS X 0201. Система использовалась до 2018 года, а затем была заменена. ZEDI (Национальная банковская система электронного обмена данными, 全銀EDIシステム), которая могла обрабатывать символы хираганы и кандзи. [3] В 1978 году был разработан 2-байтовый набор символов JIS C 6226 ( JIS X 0208 ) для выражения символов хираганы и кандзи. Он включает символы катаканы, но их коды и расположение отличаются от JIS X 0201. Производители компьютеров разработали свои собственные расширения JIS X 0208, чтобы сохранить совместимость с JIS X 0201. В 1982 году была разработана схема кодирования Microsoft Kanji ( кодовая страница 932 MS -DOS). ) и SJC26 компании Digital Research (для японского CP/M-86 ) были разработаны для объединения однобайтовой кодировки JIS X 0201 и двухбайтовой кодировки JIS X 0208 без сдвига и сдвига символов. [4] Они назывались Shift JIS и стали промышленным стандартом для персональных компьютеров.

Детали реализации

7-битный римский набор ( сдвиг )
7-битный набор Кана (смещение)

Первая половина (римский набор) JIS X 0201 представляет собой японский вариант ISO 646 , представляющий собой ASCII с обратной косой чертой (\) и тильдой (~), замененной на иену (¥) и надчеркиванием (‾), [5] , а вторая половина половина (набор кана) состоит в основном из катаканы . Управляющие символы указаны в JIS X 0211 .

В 7-битном формате управляющий символ смещения (0x0E) переключается на набор кана, а входной символ (0x0F) переключается на римский набор. [6] [7] В 8-битном формате, приведенном в таблице ниже, байты с установленным старшим битом (т. е. 0x80–0xFF) используются для набора Кана, а байты с неустановленным им битом (т. е. 0x00–0x7F) используется иначе.

Имена, используемые специально для 7-битного набора римских символов, включают «JISCII», [8] «JIS Roman», [9] «ISO646-JP», [10] [11] «JIS C6220-1969-ro», [11] [10] «Японско-римский», [12] «Японская 7-битная латиница», [13] и «ISO-IR-14», [10] [11] [7] тогда как имена используются специально для 7-битной версии. В комплект Kana входят «ISO-IR-13», [6] [10] [11] «JIS C6220-1969-jp» [10] [11] и «x0201-7». [10] [11]

Замена символа иены на обратную косую черту может привести к странному отображению путей на компьютерах под управлением DOS и Windows с поддержкой японского языка, например, «C:¥Program Files¥». [14] Другая похожая проблема — это управляющие символы языка программирования C для строковых литералов , например printf("Hello, world.¥n");.

Макет кодовой страницы

В следующей таблице представлен исходный 8-битный набор символов JIS X 0201 (набор кана обозначен байтами с установленным старшим битом). [15] [16]

  Отличия от ASCII

В составе Shift JIS

Ниже приводится сопоставление, используемое для JIS X 0201 как часть Shift JIS , [17] [18], т.е. показывает 8-битную форму JIS X 0201 и отображает символы катаканы в блок форм половинной и полной ширины (который, в свою очередь, выводит его макет кана половинной ширины из JIS X 0201).

  Первые байты двухбайтовых символов Shift JIS. [4]

Альтернативное отображение катаканы

Базовый профиль ISO-2022-JP не допускает использования набора Kana JIS X 0201, только латинского набора и JIS X 0208 (хотя сам ISO 2022 / JIS X 0202 разрешает это). Соответственно, при преобразовании катаканы JIS X 0201 (или каны половинной ширины Unicode , использующей ту же раскладку) в ISO-2022-JP, часто используется следующее сопоставление или преобразование. [20] Это позволяет конвертировать кану в JIS X 0208.

Теоретически это сопоставление одинаково правильно, поскольку сам JIS X 0201 не определяет ширину дисплея, хотя на практике (и особенно в двупространственных средах) JIS X 0201 используется для катаканы половинной ширины.

Для простоты сравнения с приведенной выше таблицей ниже показано сопоставление с кодировкой катаканы JIS X 0201 и с установленным старшим битом.

Варианты и расширения

Сдвиг JIS

Реализации IBM

Кодовая страница 897 представляет собойреализацию 8-битной формы JIS X 0201 от IBM. Она включает в себя несколько дополнительных графических символов в области управляющих символов C0 , а рассматриваемые кодовые точки могут использоваться как управляющие символы или графические символы в зависимости от context, [23] по концепции аналогично OEM-US , но с другими графическими символами. Строки C0 показаны ниже. IBM также обозначает чистый 8-битный JIS X 0201 без этих замен управляющего кода как кодовую страницу 1139 . [24] Другой вариант, включающий меньшее подмножество заменяющей графики C0 (включая только символы рисования прямоугольников в 0x01–06, 0x11, 0x15–17 и 0x19, а также символы линий/стрелок в 0x1B–1F), но с использованием другого стиль стрелки вверх ( U+21E7 ) по адресу 0x1C обозначается кодовая страница 1086 . [25]

IBM также реализует 7-битный латинский набор JIS X 0201 в качестве кодовой страницы 895 [31] и 7-битный набор Kana в качестве кодовой страницы 896 для использования в качестве кодовых наборов ISO 2022 или EUC-JP . Кодовая страница 896, помимо стандартных назначений JIS X 0201, определяет пять дополнительных назначений, показанных ниже. [32] Хотя использование этих расширенных символов не разрешено соответствующим CCSID 896, [33] они разрешены альтернативным CCSID 4992. [34]

Кодовая страница IBM 1041 представляет собой расширенную версию кодовой страницы 897, в которой эти пять расширенных символов IBM [35] кодируются в альтернативных местах, совместимых с Shift JIS (соответственно 0x80, 0xA0, 0xFD, 0xFE и 0xFF). [36] Кодовая страница 911 , другая расширенная 8-битная реализация JIS X 0201 (которая использует ту же графику замены C0, что и кодовая страница 1086), кодирует знак фунта (стерлинга) ( £ ) в 0xE1, аналогично кодовой странице 896 с восьмеркой. бит установлен, но отличается кодированием знака цента ( ¢ ) в 0xE2 и знака отсутствия ( ¬ ) в 0xE3. [37]

Кодовая страница IBM 903 закодирована для использования в качестве однобайтового компонента некоторых упрощенных китайских кодировок символов, [38] сопровождая кодовую страницу 904 на основе ASCII , используемую с традиционными китайскими кодировками. [39] [40] Несмотря на это, кодовая страница 903 соответствует ISO 646-JP / римской половине JIS X 0201, поскольку она заменяет обратную косую черту ASCII 0x5C (а не знак доллара ASCII 0x24, как в GB 1988 / ISO 646-). CN ) со знаком иена/юань . Он также использует ту же графику замены C0, что и кодовая страница 897. [41] Кодовая страница 1042 расширяет кодовую страницу 903 знаком фунта (стерлинга) в 0x80, а также знаками отсутствия знака, обратной косой чертой и тильдой в местах кодовой страницы 1041. [42]

Другие

Сноски

  1. ^ ab Управляющие символы указаны в JIS X 0211 .
  2. ^ Сопоставляется с символом JIS X 0208 (сопоставленным с U+309B), а не с нормализацией совместимости (которая будет U+3099, комбинированной версией). [22]
  3. ^ Сопоставляется с символом JIS X 0208 (сопоставленным с U+309C), а не с нормализацией совместимости (которая будет U+309A, комбинированной версией). [22]

Рекомендации

  1. ^ 行政管理庁 (Агентство административного управления) (1968).行政における電子計算機の共同利用に関する調査研究報告書(на японском языке).行政事務機械化研究協会. стр. 108–113. ОСЛК  703804474.
  2. ^ Фишер, Эрик Н. (20 июня 2000 г.). «Эволюция кодов символов, 1874–1968». ковчег:/13960/t07x23w8s . Проверено 2 ноября 2023 г.
  3. ^ "経理部門の人材不足で悩む会社に朗報、金融EDI「ZEDI」が2018年稼働へ" . Никкей Х-ТЕХ . 30 ноября 2017 г. Проверено 24 июля 2019 г.
  4. ^ ab 西田, 憲正 (19 декабря 1983). «Unix風の機能を持ち込んだ日本語MS-DOS 2.0の機能と内部構造».日経エレクトロニクス(на японском языке). Никкей МакГроу-Хилл : 165–190. ISSN  0385-1680.
  5. ^ «3.1.1 Подробности проблем» . Проблемы и решения для символов Юникода и символов, определяемых пользователем/поставщиком . Открытая группа Японии. Архивировано из оригинала 3 февраля 1999 г. Проверено 15 апреля 2019 г.
  6. ^ ab Японский комитет промышленных стандартов . ISO-IR-13: Набор японских графических символов КАТАКАНА (PDF) . ITSCJ/ IPSJ .
  7. ^ ab Японский комитет промышленных стандартов . ISO-IR-14: Набор японских римских графических символов (PDF) . ITSCJ/ IPSJ .
  8. ^ «IBM-943 и IBM-932», Центр знаний IBM , IBM
  9. ^ «kUnicodeForceASCIIRangeMask», Документация разработчика Apple , Apple Inc.
  10. ^ abcdef RFC  1345
  11. ^ abcdef «Наборы символов». ИАНА.
  12. ^ да Круз, Фрэнк (2 апреля 2010 г.), «Имена наборов символов Кермит и MIME», Kermit Project , Колумбийский университет
  13. ^ «CP 00895», IBM Globalization — Идентификаторы кодовых страниц , IBM , 9 ноября 2020 г.
  14. ^ Каплан, Майкл С. (17 сентября 2005 г.). «Когда обратная косая черта не является обратной косой чертой?».
  15. ^ JIS X 0201-1997 (на японском языке). Японская ассоциация стандартов . 28 февраля 1997 г. п. 17.
  16. ^ Консорциум Unicode (02 декабря 2015 г.). «Таблица JIS X 0201 (1976) в Unicode 1.1». unicode.org . Проверено 01 октября 2021 г.
  17. ^ "ibm-943_P130-1999" . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
  18. ^ Apple, Inc (05 апреля 2005 г.) [15 апреля 1995 г.]. «JAPANESE.TXT: сопоставление (внешняя версия) японской кодировки Mac OS с Unicode 2.1 и более поздних версий». Консорциум Юникод .
  19. ^ ван Кестерен, Энн (11 февраля 2019 г.). «12.2.2. Кодер ISO-2022-JP». Стандарт кодирования . ЧТОРГ .
  20. ^ Например, стандарт кодирования WHATWG использует его в качестве преобразования при кодировании данных кана половинной ширины Unicode в ISO-2022- JP . [19]
  21. ^ ван Кестерен, Энн (06 января 2018 г.). «Индекс ISO-2022-JP Катакана». Стандарт кодирования . ЧТОРГ .
  22. ^ Аб ван Кестерен, Энн (11 февраля 2019 г.). «5. Индексы». Стандарт кодирования . ЧТОРГ .
  23. ^ «Идентификаторы кодовых страниц — CP 00897» . IBM Глобализация . ИБМ. Архивировано из оригинала 17 марта 2016 г.
  24. ^ «Кодовая страница 01139» (PDF) . ИБМ . Архивировано из оригинала (PDF) 8 июля 2015 г. Проверено 22 октября 2021 г.
  25. ^ «Кодовая страница 01086» (PDF) . ИБМ . Архивировано из оригинала (PDF) 8 июля 2015 г. Проверено 22 октября 2021 г.
  26. ^ "CP00897.pdf" (PDF) . ИБМ.
  27. ^ "CP00897.txt". ИБМ.
  28. ^ "Конвертер Explorer - IBM-943_P130-1999" . Демонстрация отделения интенсивной терапии . Международные компоненты для Unicode.
  29. ^ «Идентификаторы кодированных наборов символов - CCSID 943» . IBM Глобализация . ИБМ. Архивировано из оригинала 15 марта 2016 г.
  30. ^ Графика указана в файлах CP00897.pdf и CP00897.txt, предоставленных IBM. [26] [27] Элементы управления перечислены, при отсутствии графических функций или в тех случаях, когда они отличаются от ASCII, в соответствии с кодеком ibm-943_P130-1999, предоставленным IBM для International Components для Unicode [28] (IBM-943 — кодовая страница 897). суперсет). [29] SUB назначен на 0x7F.
  31. ^ "CP00895.pdf" (PDF) . ИБМ.
  32. ^ ab "CP00896.pdf" (PDF) . ИБМ.
  33. ^ «Идентификаторы кодированных наборов символов - CCSID 896» . IBM Глобализация . ИБМ. Архивировано из оригинала 26 марта 2016 г.
  34. ^ «Идентификаторы кодированных наборов символов - CCSID 4992» . IBM Глобализация . ИБМ. Архивировано из оригинала 27 марта 2016 г.
  35. ^ «11.2 - Расширенный набор IBM SBCS» (PDF) . Набор японских графических символов IBM для расширенного кода UNIX (EUC) . ИБМ. п. 315.
  36. ^ "CP01041.pdf" (PDF) . ИБМ.
  37. ^ «Кодовая страница 00911» (PDF) . ИБМ . Архивировано из оригинала (PDF) 8 июля 2015 г. Проверено 22 октября 2021 г.
  38. ^ «Идентификаторы кодовых страниц — CP 903» . IBM Глобализация . ИБМ. Архивировано из оригинала 17 марта 2016 г.
  39. ^ «Идентификаторы кодированных наборов символов - CCSID 904» . IBM Глобализация . ИБМ. Архивировано из оригинала 27 марта 2016 г.
  40. ^ "CP00904.pdf" (PDF) . ИБМ.
  41. ^ "CP00903.pdf" (PDF) . ИБМ.
  42. ^ «Кодовая страница 01042» (PDF) . ИБМ . Архивировано из оригинала (PDF) 8 июля 2015 г.

Внешние ссылки