stringtranslate.com

JIS X 0208

JIS X 0208 — это 2-байтовый набор символов, определенный японским промышленным стандартом и содержащий 6879 графических символов, подходящих для написания текста, географических названий, личных имен и т. д. на японском языке . Официальное название текущего стандарта — наборы кандзи с 7-битной и 8-битной двухбайтовой кодировкой для обмена информацией ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto Hachi-Bit). ни к чему Ни- Байто Джохо Коканъё Фугока Кандзи Сюго ) . Первоначально он был установлен как JIS C 6226 в 1978 году и пересматривался в 1983, 1990 и 1997 годах. Он также называется кодовой страницей 952 компанией IBM. Версия 1978 года также называется кодовой страницей 955 компанией IBM.

Область применения и совместимость

Набор символов, установленный JIS X 0208, в первую очередь предназначен для обмена информацией (情報交換, jōhō kōkan ) между системами обработки данных и подключенными к ним устройствами или между системами передачи данных. Этот набор символов может использоваться для обработки данных и обработки текста.

Частичные реализации набора символов не считаются совместимыми. Поскольку есть места, где случались такие вещи, как изначальный комитет по разработке первого стандарта, заботящийся о разделении символов между уровнями 1 и 2, а затем второй стандарт перетасовывающий некоторые вариантные символы (異体字, itaiji ) между уровнями, по крайней мере, в первом и втором стандартах, предполагается, что реализация японских компьютерных систем, не содержащих кандзи и только уровня 1, в свое время рассматривалась для разработки. Однако такие реализации никогда не были указаны как совместимые, хотя примеры, такие как ранний NEC PC-9801, существовали. [1]

Несмотря на то, что в стандарте JIS X 0208:1997 имеются положения, касающиеся совместимости, в настоящее время обычно считается, что этот стандарт не сертифицирует совместимость и не является официальным производственным стандартом, который равнозначен декларации о самосовместимости. [2] Следовательно, де-факто , JIS X 0208-"совместимые" продукты не считаются существующими. Такие термины, как "соответствующий" (準拠, junkyo ) и "поддержка" (対応, taiō ) , включены в JIS X 0208, но семантика этих терминов различается от человека к человеку.

Кодовые таблицы

Ведущий байт

Первый кодирующий байт соответствует номеру строки или ячейки плюс 0x20 или 32 в десятичной системе (см. ниже). Таким образом, кодовый набор, начинающийся с 0x21, имеет номер строки 1, а его ячейка 1 имеет байт продолжения 0x21 (или 33) и т. д.

Для ведущих байтов, используемых для символов, отличных от кандзи , предоставляются ссылки на таблицы на этой странице, в которых перечислены символы, закодированные под этим ведущим байтом. Для ведущих байтов, используемых для кандзи, предоставляются ссылки на соответствующий раздел индекса кандзи Викисловаря .

Строки без кандзи

Набор символов 0x21 (номер строки 1, специальные символы)

Некоторые поставщики используют немного иное сопоставление Unicode для этого набора, чем приведенное ниже. Например, Microsoft сопоставляет kuten 1-29 (JIS 0x213D) с U+2015 (горизонтальная черта), [3], тогда как Apple сопоставляет его с U+2014 (длинное тире). [4] Аналогично, Microsoft сопоставляет kuten 1-61 (JIS 0x215D) с U+FF0D [3] (полноширинная форма U+002D дефис-минус), а Apple сопоставляет его с U+2212 (знак минус). [4] Сопоставление Unicode волнистого тире также различается у разных поставщиков. См. ячейки со сносками ниже.

Пунктуация ASCII и JISCII (показанная здесь на желтом фоне) может использовать альтернативные сопоставления с блоками форм половинной и полной ширины , если используется в кодировке, которая объединяет JIS X 0208 с ASCII или с JIS X 0201 , например Shift JIS , EUC-JP или ISO 2022-JP .

Набор символов 0x22 (строка номер 2, специальные символы)

Большинство символов в этом наборе были добавлены в 1983 году, за исключением символов 0x2221–0x222E (кутэн 2-1 — 2-14, или первая строка приведенной ниже таблицы), которые были включены в оригинальную версию стандарта 1978 года.

Набор символов 0x23 (номер строки 3, цифры и римские символы)

Этот набор включает подмножество инвариантного набора ISO 646 (и, следовательно, также подмножество как ASCII , так и набора JIS X 0201 Roman), за исключением знаков препинания и символов, включающих западные арабские цифры и оба случая основного латинского алфавита . Символы в этом наборе могут использовать альтернативные сопоставления Unicode с блоком Halfwidth и Fullwidth Forms , если используются в кодировке, которая объединяет JIS X 0208 с ASCII или с JIS X 0201, например EUC-JP , Shift JIS или ISO 2022-JP .

Сравните строку 3 KPS 9566 , которой эта строка точно соответствует. Сравните и сопоставьте строку 3 KS X 1001 и GB 2312 , которые включают в эту строку все свои национальные варианты ISO 646 , а не только буквенно-цифровое подмножество.

Набор символов 0x24 (номер строки 4, хирагана)

В этой строке содержится японская хирагана .

Сравните строку 4 GB 2312 , которая соответствует этой строке. Сравните и сопоставьте строку 10 KPS 9566 и KS X 1001 , которые используют ту же компоновку, но в другой строке.

Набор символов 0x25 (строка номер 5, катакана)

В этой строке содержится японская катакана .

Сравните строку 5 GB 2312 , которая соответствует этой строке. Сравните и сопоставьте строку 11 KPS 9566 и KS X 1001 , которые используют ту же раскладку, но в другой строке. Сравните существенно отличающуюся раскладку катаканы, используемую JIS X 0201 .

Набор символов 0x26 (строка номер 6, греческий)

В этой строке содержится базовая поддержка современного греческого алфавита без диакритических знаков и конечной сигмы .

Сравните строку 6 GB 2312 и GB 12345 и строку 6 KPS 9566 , которые включают те же греческие буквы в той же компоновке, хотя GB 12345 добавляет вертикальные формы представления, а KPS 9566 добавляет римские цифры. Сравните и сопоставьте строку 5 KS X 1001 , которая смещает греческие буквы, чтобы включить римские цифры первыми.

Набор символов 0x27 (строка номер 7, кириллица)

Эта строка содержит современный русский алфавит и не обязательно достаточна для представления других форм кириллицы .

Сравните строку 7 GB 2312 , которая соответствует этой строке. Сравните и сопоставьте строку 12 KS X 1001 и строку 5 KPS 9566 , которые используют ту же компоновку (но в другой строке).

Набор символов 0x28 (номер строки 8, рисунок блока)

Все символы в этом наборе были добавлены в 1983 году и отсутствовали в оригинальной редакции стандарта 1978 года.

Набор символов расширения 0x2D (номер строки 13, специальные символы NEC)

Строки с 9 по 15 стандарта JIS X 0208 оставлены пустыми.

Однако следующая раскладка для строки 13, впервые представленная NEC , является распространенным расширением. Она используется (с небольшими изменениями, отмеченными в сносках) Windows-932 [3] (который соответствует стандарту кодирования WHATWG , используемому HTML5 ), вариантом PostScript (но, начиная с версии KanjiTalk 7, не является обычным вариантом) [5] MacJapanese и JIS X 0213 ( преемником JIS X 0208). [5] [6] В отличие от других расширений, созданных Windows-932/WHATWG и JIS X 0213, эти два расширения совпадают, а не конфликтуют, поэтому декодирование большей части этой строки поддерживается лучше, чем другие расширения, созданные JIS X 0213.

Ряды кандзи

Структура кода

Для представления кодовых точек используются номера столбцов/строк для однобайтовых кодов и номера кутэнов для двухбайтовых кодов. Для способа идентификации символа без зависимости от кода используются имена символов.

Однобайтовые коды

Почти все графические коды символов JIS X 0208 представлены двумя байтами по крайней мере из семи бит каждый. Однако каждый управляющий символ , а также простой пробел – хотя и не идеографический пробел – представлены однобайтовым кодом. Для представления комбинации бит (ビット組合せ, bitto kumiawase ) однобайтового кода используются два десятичных числа – номер столбца и номер строки . Три старших бита из семи или четыре старших бита из восьми, считая от нуля до семи или от нуля до пятнадцати соответственно, образуют номер столбца. Четыре младших бита, считая от нуля до пятнадцати, образуют номер строки. Каждое десятичное число соответствует одной шестнадцатеричной цифре. Например, комбинация бит, соответствующая графическому символу «пробел», равна 010 0000 как 7-битное число и 0010 0000 как 8-битное число. В нотации столбец/строка это представлено как 2/0. Другие представления того же однобайтового кода включают 0x20 в шестнадцатеричном виде или 32 в виде одного десятичного числа.

Кодовые точки и кодовые номера

Двухбайтовые коды располагаются в 94 пронумерованных группах, каждая из которых называется строкой (, ku , букв. «раздел») . Каждая строка содержит 94 пронумерованных кода, каждый из которых называется ячейкой (, ten , букв. «точка») . [j] Это составляет в общей сложности 8836 (94 × 94) возможных кодовых точек (хотя не все из них назначены, см. ниже); они изложены в стандарте в 94-строчной, 94-столбцовой кодовой таблице.

Номер строки и номер ячейки (каждый пронумерован от 1 до 94 для стандартного кода JIS X 0208) образуют точку кутэн (区点) , которая используется для представления двухбайтовых кодовых точек. Номер кода или номер кутэн (区点番号, kuten bangō ) выражается в форме «строка-ячейка», причем номера строки и ячейки разделяются дефисом . Например, символ «» имеет кодовую точку в строке 16, ячейке 1, поэтому его кодовый номер представлен как «16-01».

В 7-битном JIS X 0208 (который может быть переключен в JIS X 0202 / ISO-2022-JP ) оба байта должны быть из 94-байтового диапазона от 0x 21 (используется для номера строки или ячейки 1) до 0x7E (используется для номера строки или ячейки 94) — точно соответствующего диапазону, используемому для 7-битных печатных символов ASCII, не считая пробела. Соответственно, закодированные байты получаются путем добавления 0x20 (32) к каждому числу. [7] Например, приведенный выше пример 16-01 ("亜") будет представлен байтами 0x30 0x21. 8-битный EUC-JP вместо этого использует диапазон от 0xA1 до 0xFE (устанавливая старший бит в 1), тогда как другие кодировки, такие как Shift JIS, используют более сложные преобразования. Shift JIS включает больше пространства кодирования, чем необходимо для самого JIS X 0208; некоторые расширения Shift JIS, специфичные для JIS X 0208, используют номера строк выше 94. [8]

Эта структура также используется в GB 2312 материкового Китая , где она изначально известна как区位; qūwèi , и в южнокорейском KS C 5601 (в настоящее время KS X 1001 ), где ku и ten соответственно известны как hang [9] ( ;; haeng ) и yol [9] ( ;; yeol ). Более поздний JIS X 0213 расширяет эту структуру, имея более одной плоскости (, men , букв. «лицо») строк, что также является структурой, используемой CNS 11643 , и связанной со структурой, используемой CCCII .

Неназначенные кодовые точки

Среди 2-байтовых кодов строки с 9 по 15 и с 85 по 94 являются неназначенными кодовыми точками (空き領域, aki ryōiki ) ; то есть это кодовые точки без назначенных им символов. Кроме того, некоторые ячейки в других строках также по сути являются неназначенными кодовыми точками.

Эти пустые области содержат кодовые точки, которые в принципе не должны использоваться. За исключением случаев, когда есть предварительное соглашение между соответствующими сторонами, символы ( gaiji ) для обмена информацией не должны назначаться неназначенным кодовым точкам.

Даже при назначении символов неназначенным кодовым точкам им не следует назначать графические символы, определенные в стандарте, и один и тот же символ не следует назначать нескольким неназначенным кодовым точкам; символы не должны дублироваться в наборе.

Кроме того, при назначении символов неназначенным кодовым точкам необходимо проявлять осторожность в отношении унификации в отношении глифов кандзи. Например, ячейка 66 строки 25 соответствует кандзи, означающему «высокий» или «дорогой»; как форма с компонентом, напоминающим символ «рот» () в середине (), так и менее распространенная форма с конструкцией, похожей на лестницу, в том же месте () включаются в одну и ту же кодовую точку. Следовательно, ограничение точек 25-66 формой «рот» и назначение последней формы «лестница» неназначенной кодовой точке технически будет нарушением стандарта.

Однако на практике несколько вариантов Shift JIS , специфичных для конкретных поставщиков, включая Windows-932 и MacJapanese , кодируют расширения поставщиков в нераспределенных строках пространства кодирования для JIS X 0208. Кроме того, большинство кодов, не назначенных в JIS X 0208, назначаются более новым стандартом JIS X 0213 .

Имена персонажей

Каждому символу JIS X 0208 дано имя . Используя имя символа, можно идентифицировать символы, не полагаясь на их коды. Имена символов согласованы с другими стандартами наборов символов, в частности с Универсальным набором кодированных символов (UCS/ Unicode ), поэтому это один из возможных источников сопоставления символов с наборами символов, такими как Unicode. Например, и символ в ISO/IEC 646 International Reference Version ( US-ASCII ) столбец 4 строка 1, и символ в JIS X 0208 строка 3 ячейка 33 имеют имя "ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A". Следовательно, символ в 4/1 в ASCII и символ в 3-33 в JIS X 0208 можно рассматривать как один и тот же символ (хотя на практике для символа JIS X 0208 используется альтернативное сопоставление из-за кодировок, предоставляющих ASCII отдельно). И наоборот, символы ASCII 2/2 (кавычки), 2/7 (апостроф), 2/13 (дефис-минус) и 7/14 (тильда) могут быть определены как символы, не существующие в этом стандарте.

Имена символов, не являющихся кандзи, используют заглавные латинские буквы, пробелы и дефисы. Символам, не являющимся кандзи, дано общее название на японском языке (日本語通用名称, Nihongo tsūyō meishō ) , но некоторых положений для этих названий не существует. [k] Имена кандзи, с другой стороны, механически устанавливаются в соответствии с соответствующим шестнадцатеричным представлением их кода в UCS/Unicode. Имя кандзи можно получить, добавив к кодовой точке Unicode «CJK UNIFIED IDEOGRAPH-». Например, ячейка 1 строки 16 () соответствует U+4E9C в UCS, поэтому ее имя будет «CJK UNIFIED IDEOGRAPH-4E9C». Кандзи не даются общие названия в японском языке.

Набор кандзи

Обзор

JIS X 0208 предписывает набор из 6879 графических символов, которые соответствуют двухбайтовым кодам с семью или восемью битами на байт; в JIS X 0208 это называется набором кандзи (漢字集合, kanji shūgō ) , который включает в себя 6355 кандзи, а также 524 не-кандзи (非漢字, hikanji ) , включая такие символы, как латинские буквы , кана и так далее.

Специальные символы
Занимает строки 1 и 2. Имеется 18 символов-дескрипторов (記述記号, кидзюцу киго ), таких как «идеографическое пространство» ( ), а также японские запятая и точка ; восемь диакритических знаков, таких как дакутен и хандакутен ; 10 символов для вещей, которые следуют за кана или кандзи (仮名又は漢字に準じるもの, кана мата ва кандзи ни дзюндзиру моно ) , например знак итерации ; 22 символа скобок (括弧記号, какко киго ) ; 45 математических символов (学術記号, гакудзюцу киго ) ; и 32 символа единиц , включая знак валюты и почтовый знак , всего 147 символов.
Цифры
Занимает часть строки 3. Десять цифр от «0» до «9».
латинские буквы
Занимает часть ряда 3. 26 букв английского алфавита в верхнем и нижнем регистре, всего 52.
Хирагана
Занимает ряд 4. Содержит 48 глухих кана (включая устаревшие wi и we ), 20 звонких кана ( dakuten ), 5 полузвонких кана ( handakuten ), 10 малых кана для палатализованных и ассимилированных звуков, всего 83 символа.
Катакана
Занимает 5-ю строку. Всего 86 символов; в дополнение к катакане, эквивалентной символам хираганы, маленькой ка / ке кана (/) и ву кана ().
Греческие буквы
Занимает строку 6. 24 буквы греческого алфавита в верхнем и нижнем регистре (без конечной сигмы ), всего 48.
Буквы кириллицы
Занимает 7-й ряд. 33 буквы русского алфавита в прописном и строчном виде, всего 66.
Персонажи, рисующие коробки
Занимает ряд 8. Тонкие сегменты, толстые сегменты и смешанные тонкие и толстые сегменты, всего 32.
Кандзи
2965 символов 1-го уровня (第1水準, дайичи суйджун ) с 16 по 47 строку и 3390 символов 2 уровня (第2水準, дай ни суйджун ) с 48 по 84 строку, всего 6355.

Специальные символы, цифры и латинские буквы

Что касается специальных символов в наборе кандзи, некоторые символы из набора графических символов Международной справочной версии (IRV) ISO/IEC 646 :1991 (эквивалент ASCII ) отсутствуют в JIS X 0208. Есть вышеупомянутые четыре символа "КАВЫЧКИ", "АПОСТРОФ", "ДЕФИС-МИНУС" и "ТИЛЬДА". Первые три разделены на различные кодовые точки в наборе кандзи (Нисимура, 1978; стандарт JIS X 0221-1:2001, раздел 3.8.7). "ТИЛЬДА" из IRV не имеет соответствующего символа в наборе кандзи.

В следующей таблице рассматриваемые символы IRV ISO/IEC 646:1991 сравниваются с их многочисленными эквивалентами в JIS X 0208, за исключением символа IRV «ТИЛЬДА», который сравнивается с «WAVE DASH» из JIS X 0208. Записи в столбцах «Символ» используют кодовые точки UCS/Unicode, поэтому особенности отображения могут отличаться.

Символам ASCII/IRV, не имеющим точных эквивалентов JIS X 0208, позднее были присвоены кодовые точки JIS X 0213; они также перечислены ниже, как и сопоставление Microsoft этих четырех символов.

  1. ^ ab Из "NEC selection of IBM extensions". Занимает нераспределенную кодовую точку в JIS X 0208.
  2. ^ ab Из "IBM extensions". Вне диапазона JIS X 0208, но кодируется в Shift_JIS.
  3. ^ Microsoft рассматривает знак «минус» JIS как полноширинную форму дефиса-минуса.
  4. ^ ab Волнистое тире иногда рассматривается как полноширинная форма тильды, например, Microsoft (см. Тильда § Кодировка волнистого тире в Unicode и Shift JIS ). Тильда ASCII / IRV является неоднозначной кодовой точкой, которая может отображаться либо как знак ударения тильды (˜), либо как тире с той же кривизной (∼), хотя тире встречается чаще из-за того, что акцент пробела имеет отдельную кодовую точку в Windows-1252 ; для акцента тильды нет символа JIS X 0208. Символ 1-2-18 в JIS X 0213 отображается как акцент тильды в кодовой таблице. [6]

Это означает, что набор кандзи является самым распространенным в мире набором символов, несовместимым снизу вверх; это считается одним из слабых мест этого стандарта.

Даже при наличии 90 общих специальных символов, цифр и латинских букв в наборах кандзи и IRV этот стандарт не следует порядку ISO/IEC 646. Эти 90 символов распределены между строками 1 (знаки препинания) и 3 (буквы и цифры), хотя строка 3 следует порядку ISO 646 только для 62 букв и цифр (например, 4/1(«A») в ISO 646 становится 2/3 4/1(т. е. 3-33) в JIS X 0208).

Что касается причины того, почему эти цифры, латинские буквы и т. д. в наборе кандзи являются «полноширинными буквенно-цифровыми символами» (全角英数字, zenkaku eisūji ), и почему первоначальная реализация имела иную интерпретацию по сравнению с IRV, то считается, что это связано с этими несовместимостями.

С момента принятия первого стандарта стало возможным представлять составные символы (合成, gōsei ), такие как обведенные числа , лигатуры для названий единиц измерения и римские цифры ; [10] им не были предоставлены независимые кодовые точки kuten . Хотя отдельные компании, производящие информационные системы, могут попытаться представить эти символы так, как этого могут потребовать клиенты, по составу символов, никто не просил добавить их в стандарт, вместо этого предпочитая предлагать их как gaiji .

В четвертом стандарте (1997) все эти символы были явно определены как символы, которые сопровождают продвижение текущей позиции; то есть, они являются пробельными символами . Кроме того, было постановлено, что они не должны создаваться путем композиции символов. По этой причине было запрещено представлять латинские символы диакритическими знаками вообще, за исключением, возможно, символа ангстрема ( Å ) в строке 2, ячейке 82.

Хирагана и катакана

Хирагана и катакана в JIS X 0208, в отличие от JIS X 0201 , включают в себя обозначения дакутэн и хандакутэн как часть символа. Катакана wi () и we () ( обе устаревшие в современном японском языке), а также маленькая wa () , отсутствующая в JIS X 0201, также включены.

Расположение каны в JIS X 0208 отличается от расположения катаканы в JIS X 0201. В JIS X 0201 слоговое письмо начинается с во () , за которым следует маленькая кана, отсортированная по порядку годзюон , за которой следует полноразмерная кана. кана, также в порядке годзюон (ヲァィゥェォャュョッーアイウエオ......ラリルレロワン). С другой стороны, в JIS X 0208 кана сортируются сначала по порядку годзюон , затем в порядке «маленькая кана, полноразмерная кана, кана с дакутеном и кана с хандакутеном», так что одна и та же основная кана сгруппирована. с его производными (ぁあぃいぅうぇえぉお......っつづ......はばぱひびぴふぶぷへべぺほぼぽ......ゎわゐゑをん). Такой порядок был выбран для того, чтобы упростить сортировку словарных поисков на основе каны (Yasuoka, 2006). [л]

Как упоминалось выше, в этом стандарте ранее определенный порядок катаканы в JIS X 0201 не был соблюден в JIS X 0208. Считается, что катакана JIS X 0201, являющаяся " каной половинной ширины ", возникла из-за несовместимости с катаканой этого стандарта. Этот момент также является одним из слабых мест этого стандарта.

Кандзи

Как были выбраны кандзи в этом стандарте из каких источников, почему они разделены на уровень 1 и уровень 2, и как они организованы, все это подробно объясняется в четвертом стандарте (1997). Согласно этому объяснению, кандзи, включенные в следующие четыре списка кандзи, были отражены в 6349 символах первого стандарта (1978).

Во втором и третьем стандартах они добавили четыре и два символа к уровню 2 соответственно, доведя общее количество кандзи до 6355. Кроме того, во втором стандарте были изменены формы символов, а также транспозиция между уровнями; в третьем стандарте также были изменены формы символов. Они описаны ниже.

Разбиение уровня

2965 кандзи уровня 1 занимают строки с 16 по 47. 3390 кандзи уровня 2 занимают строки с 48 по 84.

Для уровня 1 были выбраны символы, общие для нескольких списков глифов кандзи, с использованием кандзи tōyō , черновика исправления кандзи tōyō и кандзи jinmeiyō в качестве основы. Также были проконсультированы JIS C 6260 («Идентификационный код То-До-Фу-Кен (префектура)»; в настоящее время JIS X 0401) и JIS C 6261 («Идентификационный код городов, поселков и деревень»; в настоящее время JIS X 0402); кандзи для почти всех японских префектур , городов, районов, округов, поселков, деревень и т. д. были намеренно помещены на уровень 1. [m] Кроме того, были добавлены поправки экспертов.

Уровень 2 был посвящен кандзи, которые встречались в вышеупомянутых четырех основных списках, но не были отобраны для уровня 1. Как отмечено ниже, кандзи уровня 1 были упорядочены по их произношению, поэтому среди кандзи, произношение которых было трудно определить, были те, которые были перенесены с уровня 1 на уровень 2 на этой основе (Нисимура, 1978).

Из-за этих решений, по большей части, уровень 1 содержит более часто используемые кандзи, а уровень 2 содержит более редко используемые кандзи, но, конечно, они оценивались по стандартам дня; с течением времени некоторые кандзи уровня 2 стали более часто используемыми, например, один со значением «парить» () и один со значением «блестеть» (); и наоборот, некоторые кандзи уровня 1 стали нечастыми, в частности, те, которые означают «сантиметр» () и «миллиметр» (). Из текущих кандзи дзёё 30 попадают на уровень 2, [n], в то время как три вообще отсутствуют (塡󠄀, 剝󠄀 и 頰󠄀). [o] Из текущих кандзи дзинмэйё 192 находятся на уровне 2, [p], в то время как 105 не являются частью стандарта. [к]

Договоренность

Кандзи на уровне 1 сортируются в порядке «репрезентативного чтения» каждого из них (т. е. канонического чтения, выбранного только для целей этого стандарта); чтение кандзи для этого может быть чтением он или кун ; чтения сортируются в порядке годзюон . [r] Как правило, чтение он (китайское звучание) считается репрезентативным чтением; если кандзи имеет несколько чтений он , чтение, которое считается преобладающим по частоте использования, используется для репрезентативного чтения (стандарт JIS C 6226-1978, раздел 3.4). Для небольшого процента кандзи, которые либо не имеют чтения он , либо имеют малоизвестное и нечасто используемое чтение он, в качестве репрезентативного чтения использовалось чтение кун . Когда в качестве репрезентативного чтения должно использоваться чтение глагола кун , используется форма рэнёкэй (а не сюсикэй ).

Например, ячейки с 1 по 41 в строке 16 содержат 41 символ, отсортированный как начинающийся с чтения a . Среди них 22 символа, включая 16-10 (: при чтении « ki »; кун -чтение « aoi ») и 16-32 (: при чтении « zoku » и « shoku »; кун -чтение « awa »), находятся там на основе их кун -чтений. 16-09 (: при чтении « », кун -чтение « a(i) ») и 16-23 (: при чтении « » и « kyū », кун -чтение « atsuka(i) ») — это всего лишь два примера глаголов в форме рэнёкэй, используемых для репрезентативного чтения.

Если репрезентативное чтение одинаково для разных кандзи, то кандзи, использующий чтение он , помещается перед тем, который использует чтение кун . Если чтение он или кун одинаково для нескольких кандзи, то они упорядочиваются по их первичному радикалу и количеству черт .

Будь то на уровне 1 или на уровне 2, итайдзи располагаются так, чтобы непосредственно следовать за своей образцовой формой. Например, на уровне 2, сразу после строки 49, ячейки 88 (), следующие сразу за ней символы отклоняются от общего правила (в данном случае от количества штрихов), чтобы включить три варианта 49-88 (,и). [s]

Кандзи на уровне 2 расположены в порядке первичного радикала и количества черт. Если эти два свойства одинаковы для разных кандзи, они сортируются по чтению.

Кандзи из неизвестных источников

Было отмечено, что в наборе кандзи есть кандзи, которые не встречаются в полных, несокращенных словарях кандзи, и что их источники неизвестны. Например, всего через год после того, как был установлен первый стандарт, Таджима (1979) сообщил, что он подтвердил 63 кандзи, которые не были найдены ни в Shinjigen (большом словаре кандзи, опубликованном Kadokawa Shoten ), ни в Dai Kan-Wa jiten , и они не имели смысла как рякудзи любого рода; он отметил, что было бы предпочтительнее, чтобы кандзи, которых нет в словарях кандзи, были выбраны из определенных источников. Эти кандзи стали известны как «призрачные» символы (幽霊文字, yūrei moji ) или «призрачные кандзи» (幽霊漢字, yūrei kanji ) , среди прочих названий.

Редакционный комитет четвертой версии стандарта также увидел проблему в существовании кандзи с неизвестными источниками и поэтому провел расследование относительно того, на какие именно источники ссылался редакционный комитет первой версии. В результате было обнаружено, что первоначальный редакционный комитет в значительной степени полагался на «Результаты анализа соответствия» для сбора кандзи. Когда редакционный комитет исследовал «Результаты анализа соответствия», стало ясно, что многие из кандзи, включенных в набор кандзи, но не найденных в исчерпывающих словарях кандзи, предположительно, были взяты из списков «Японские кандзи для регистрации имени личности» и «Кандзи для списка национальных административных округов», упомянутых в «Результатах анализа соответствия».

Было подтверждено, что не существует оригинального текста для "Японского имени регистрации личности Кандзи", упомянутого в "Результатах анализа соответствия". Для "Списка национальных административных округов" Сасахара Хироюки из редакционного комитета четвертой версии изучил кандзи, которые появились на страницах, находящихся в процессе разработки для первого стандарта. Комитет также проконсультировался со многими древними писаниями, а также со многими примерами личных имен в базе данных телефонных справочников NTT .

Благодаря этому тщательному расследованию комитет смог сократить количество кандзи, источник которых не может быть уверенно объяснен, до двенадцати, показанных в соседней таблице. Предполагается, что из них несколько глифов появились из-за ошибок копирования. В частности, 妛, вероятно, был создан, когда печатники пытались создать 𡚴, вырезая и вставляя 山 и 女 вместе. Тень от этого процесса была неверно истолкована как линия, в результате чего получилась 妛 (изображение этого можно найти в Jōyō kanji jiten ).

Унификация вариантов кандзи

Согласно спецификациям четвертого стандарта (1997), унификация (包摂, hōsetsu , не тот же термин, который используется для « унификации » Unicode, хотя это почти та же концепция) — это действие по присвоению символу той же кодовой точки без учета его различных форм. В четвертом стандарте разрешенные глифы ограничены; степень, в которой конкретные аллографические глифы унифицируются в графемическую кодовую точку, четко определена.

Кроме того, согласно спецификациям в стандарте, глиф (字体, jitai , букв. «тело символа»;) — это абстрактное понятие относительно графического представления графического символа; форма символа (字形, jikei , букв. «очертание символа»; также «глиф» в некотором смысле, но дифференцируется на другом уровне в целях стандартизации) — это представление в виде графической формы, которую глиф принимает в действительности (например, из-за того, что глиф написан от руки, напечатан, отображен на экране и т. д.). Для одного глифа существует бесконечный диапазон возможных конкретно и/или визуально различных форм символов. Изменение между формой символа одного глифа называется «разницей в дизайне» (デザインの差, dezain no sa ) .

Степень, в которой глиф унифицирован с одной кодовой точкой, определяется в соответствии с «примером глифа» (例示字体, reiji jitai ) этой кодовой точки и «критериями унификации» (包摂規準, hōsetsu kijun ) , которые могут быть применены к этому примеру глифа; то есть пример глифа для кодовой точки применяется к этой кодовой точке, и любые глифы, для которых части, составляющие пример глифа, заменяются в соответствии с критериями унификации, также применяются к этой кодовой точке.

Например, пример глифа в 33-46 () состоит из радикала 9 () и кандзи, который в конечном итоге породил со кану (). Кроме того, в критерии объединения 101 отображаются три кандзи: первый принимает форму, наиболее часто встречающуюся в японском языке (); второй содержит более традиционную форму (), в которой первые два штриха образуют радикал 12 (цифра кандзи для числа 8:); а третий похож на второй, за исключением того, что радикал 12 инвертирован (). Следовательно, все три перестановки (,,) применяются к кодовой точке в строке 33, ячейке 46.

В четвертом стандарте, включая один из исправлений первого издания, содержится 186 критериев унификации.

Когда пример глифа кодовой точки состоит из более чем одного глифа-части, критерии унификации могут быть применены к каждой части. После применения критерия унификации к одной части глифа, к этой части не может быть применено больше никаких критериев унификации. Кроме того, критерий унификации не допускается, если полученный глиф будет полностью совпадать с глифом другой кодовой точки.

Пример глифа — это не более чем пример для этой кодовой точки; это не глиф, «одобренный» стандартом. Кроме того, критерии унификации должны использоваться только для общеупотребительных кандзи и для назначения вещей кодовым точкам этого стандарта. Стандарт требует, чтобы общеупотребительные кандзи не создавались на основе примеров глифов и критериев унификации.

Кандзи из набора кандзи не выбираются полностью последовательно в соответствии с критериями унификации. Например, хотя 41-7 соответствует форме, в которой третья и четвертая черты пересекаются (), а также форме, в которой они не пересекаются () в соответствии с критерием унификации 72, 20-73 соответствует только форме, в которой они не пересекаются (), а 80-90 соответствует только форме, в которой они пересекаются ().

Термины «унификация», «критерии унификации» и «пример глифа» были приняты в четвертом стандарте. С первой по третью версию кандзи и отношения между кандзи были сгруппированы в три типа: «независимые» (独立, dokuritsu ) , «совместимые» (対応, taiō ) и «эквивалентные» (同値, dōchi ) ; было объяснено, что символы, признанные эквивалентными, «объединяются только в одну точку». «Эквивалентность» включала, помимо кандзи с точно такой же формой, кандзи с различиями из-за стиля и кандзи, где разница в форме символа невелика.

В первом стандарте было оговорено, что «настоящий стандарт... не устанавливает особенности форм символов» (Раздел 3.1); в нем также говорится, что «целью настоящего стандарта является установление общей идеи символов и их кодов; дизайн их форм символов и т. д. выходят за рамки его сферы действия». Во втором и третьем стандартах также примечания о том, что конкретные дизайны форм символов выходят за рамки его сферы действия (примечание к пункту 1). Четвертый стандарт также оговаривает, что «настоящий стандарт регулирует графические символы, а также их битовые комбинации, и использование, конкретные дизайны отдельных символов и т. д. не входят в сферу действия настоящего стандарта» (JIS X 0208:1997, пункт 1).

Критерии унификации совместимости

В четвертом стандарте определены «критерии унификации для обеспечения совместимости с предыдущими стандартами» (過去の規格との互換性を維持するための包摂規準, kako no kikaku to no gokansei wo iji suru tame no hōsetsu kijun ) . Их применение ограничено 29 кодовыми точками, символы которых сильно различаются в зависимости от стандартов JIS C 6226-1983 и последующих версий и JIS C 6226-1978. Для этих 29 кодовых точек глифы из JIS C 6226-1983 и далее отображаются как «A», а глифы из JIS C 6226-1978 как «B». На каждом из них могут быть применены как глифы "A", так и "B". Однако для того, чтобы заявить о совместимости со стандартом, необходимо явно указать, использовалась ли форма "A" или "B" для каждой кодовой точки .

Кодировки символов

Схемы кодирования, предусмотренные JIS X 0208

В статье 7 стандарта JIS X 0208:1997 в сочетании с приложениями 1 и 2 определены в общей сложности восемь схем кодирования.

В описаниях ниже регионы "CL" (управление слева), "GL" (графическое слева), "CR" (управление справа) и "GR" (графическое справа) соответственно, в нотации столбцов/строк, от 0/0 до 1/15, от 2/1 до 7/14, от 8/0 до 9/15 и от 10/1 до 15/14. Для каждого кода 2/0 назначается графический символ "SPACE", а 7/15 - управляющий символ "DELETE". Управляющие символы C0 (определенные в JIS X 0211 и соответствующие ISO/IEC 6429 ) назначаются региону CL.

7-битное кодирование для кандзи
Предусмотрено в самом стандарте. Двухбайтовый набор JIS X 0208 назначен региону GL.
8-битное кодирование для кандзи
Предусмотрено в самом стандарте. То же, что и 7-битное кодирование, но определяется в терминах 8-битных байтов. Область CR может не использоваться или кодировать управляющие символы C1 из JIS X 0211. Область GR не используется.
Международная справочная версия + 7-битная кодировка для кандзи
Предусмотрено в самом стандарте. Сдвиг в управляющем символе обозначает ISO/IEC 646 :1991 IRV (International Reference Version, эквивалент US-ASCII ) для региона GL. Сдвиг наружу обозначает двухбайтовый набор JIS X 0208 для того же региона.
Латинские символы + 7-битная кодировка для кандзи
Оговорено в самом стандарте. Как и IRV+7-бит, но с заменой ISO/IEC 646:IRV на ISO/IEC 646:JP (римский набор JIS X 0201 ).
Международная справочная версия + 8-битная кодировка для кандзи
Предусмотрено в самом стандарте. ISO/IEC 646:IRV назначен региону GL, JIS X 0208 — региону GR. Фактически это подмножество EUC-JP , за исключением полуширинной катаканы из JIS X 0201 и дополнительных кандзи из JIS X 0212 .
Латинские символы + 8-битная кодировка для кандзи
Оговорено в самом стандарте. Как и IRV+8-бит, но с заменой ISO/IEC 646:IRV на ISO/IEC 646:JP.
Набор символов с кодировкой Shift
Условлено в Приложении 1: «Представление с кодировкой сдвига» (シフト符号化表現, Шифуто Фугока Хёгэн ) . Авторитетное определение Shift JIS .
Набор символов, закодированный в RFC 1468
Оговорено в Приложении 2: «RFC 1468-Coded Representation» ( RFC 1468符号化表現, RFC 1468 Fugōka Hyōgen ) . Напоминает ISO-2022-JP (который официально определен в RFC 1468), но определен в терминах восьмибитных байтов, тогда как ISO-2022-JP определен в терминах семибитных байтов.

Среди кодировок, предусмотренных в четвертом стандарте, только набор кодированных символов «Shift» зарегистрирован IANA . [ 11] Однако некоторые другие тесно связаны с зарегистрированными IANA кодировками, определенными в других местах (EUC-JP и ISO-2022-JP).

Последовательности выхода из строя для JIS X 0202 / ISO 2022

JIS X 0208 может использоваться в ISO 2022 /JIS X 0202 (подмножеством которого является ISO-2022-JP). Ниже перечислены escape-последовательности для обозначения JIS X 0208 для каждого из четырех наборов кодов ISO 2022. Здесь «ESC» относится к управляющему символу « Escape » (0x1B или 1/11).

Escape-последовательность, начинающаяся с ESC 2/4, выбирает многобайтовый набор символов. Escape-последовательность, начинающаяся с ESC 2/6, указывает на ревизию предстоящего выбора набора символов. JIS C 6226:1978 идентифицируется байтом 4/0 многобайтового-94-идентификатора (соответствует ASCII @). JIS C 6226:1983 / JIS X 0208:1983 идентифицируется байтом 4/2 многобайтового-94-идентификатора ( B). JIS X 0208:1990 также идентифицируется байтом 4/2 многобайтового-идентификатора, но его можно отличить по идентификатору ревизии 4/0 ( @).

Дублирующиеся кодировки ASCII и JIS X 0201

При использовании набора кандзи этого стандарта либо с набором графических символов ISO/IEC 646:1991 IRV ( ASCII ), либо с набором графических символов JIS X 0201 для латинских символов ( JIS-Roman ), обработка символов, общих для обоих наборов, становится проблематичной. Если не принять специальных мер, символы, включенные в оба набора, не будут соответствовать друг другу один к одному, и одному символу может быть присвоено более одной кодовой точки; то есть это может привести к дублированию кодирования.

JIS X 0208:1997, в отношении случаев, когда символ является общим для обоих наборов, в основном запрещает использование кодовой точки в наборе кандзи (которая является одной из двух кодовых точек), устраняя дублирующие кодировки. Считается, что символы, имеющие одинаковое имя, являются одним и тем же символом.

Например, как имя символа, соответствующего битовому шаблону 4/1 в ASCII, так и имя символа, соответствующего ячейке 33 строки 3 набора кандзи, являются "ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A". В International Reference Version + 8-битный код для кандзи, будь то битовый шаблон 4/1 или битовый шаблон, соответствующий ячейке 33 строки 3 набора кандзи (10/3 12/1), представлена ​​буква " A " (т. е. "ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A"). Стандарт запрещает использование битового шаблона "10/3 12/1" в попытке устранить дублирующую кодировку.

Принимая во внимание реализации, которые рассматривают символы кодовых точек в наборе кандзи как " полноширинные символы ", а символы ASCII или JIS-Roman как разные символы, использование кодовых точек набора кандзи разрешено только в целях обратной совместимости. Например, в целях обратной совместимости разрешается рассматривать 10/3 12/1 в International Reference Version + 8-битный код для кандзи как соответствующие полноширинной "A".

Если набор кандзи используется вместе с ASCII или JIS-Roman, то даже если стандарт строго соблюдается, уникальная кодировка символа не гарантируется. Например, в International Reference Version + 8-битный код для кандзи допустимо представлять дефис с помощью битовой комбинации 2/13 для символа "ДЕФИС-МИНУС", а также с помощью строки 1 набора кандзи, ячейки 30 (битовая комбинация 10/1 11/14) для символа "ДЕФИС". Кроме того, стандарт не определяет, какой из двух использовать для чего, и поэтому дефису не дается одна уникальная кодировка. Та же проблема касается знака минус , кавычек и т. д.

Более того, даже если набор кандзи используется как отдельный код, нет гарантии, что реализована уникальная кодировка символов. Однако во многих случаях полноширинный " ИДЕОГРАФИЧЕСКИЙ ПРОБЕЛ " в строке 1, ячейке 1 и пробел половинной ширины (2/0) сосуществуют. Чем они должны отличаться, не объясняется само собой и не указано в стандарте.

Сравнение схем кодирования, используемых на практике

  1. ^ т.е. не требует 8-битной чистой передачи.
  2. ^ т.е. последовательность, используемая для кодирования данного символа, всегда одна и та же, независимо от того, какими были предыдущие символы. См. state (computer science) .
  3. ^ ab ISO-2022-JP — это кодировка с сохранением состояния : все наборы символов кодируются по 0x21–7E и переключаются между ними с помощью экранированных символов ANSI. Таким образом, хотя в исходном состоянии это ASCII, целые последовательности символов, не входящих в ASCII, могут кодироваться байтами ASCII.
  4. ^ Катакана JIS X 0201 доступна в JIS X 0202 и ISO 2022, но не включена в базовый профиль ISO-2022-JP, хотя и является общим расширением.
  5. ^ JIS X 0212 доступен в JIS X 0202 и ISO 2022, а также включен в профили ISO-2022-JP-1 и ISO-2022-JP-2, но не в базовый профиль ISO-2022-JP.
  6. ^ Однобайтовые символы 0x21–7E в Shift_JIS соответствуют кодировке ISO-646-JP , чтобы быть надмножеством 8-битного JIS X 0201, но часто декодируются (не обязательно отображаются) как ASCII, который отличается только в двух местах.
  7. ^ Некоторые (не все) байты ASCII могут появляться как вторые байты, но не первые байты двухбайтовых символов в Shift_JIS. Следовательно, в последовательности из двух или более байтов ASCII, второй байт и далее обязательно являются символами ASCII (или ISO-646-JP).
  8. ^ ab Упакованный формат EUC основан на механизмах ISO 2022 с предопределенными обозначениями наборов символов. Экранирования обозначений наборов символов и блокирующие сдвиги избегаются, тогда как использование одиночных сдвигов может быть реализовано без сохранения состояния. Тем не менее, ограничения ISO 2022 соблюдаются.
  9. ^ Однобайтовые символы 0x21–7E в EUC-JP обычно считаются ASCII, но иногда рассматриваются как ISO-646-JP .
  10. ^ В отличие от Shift_JIS, EUC-JP не будет обрабатывать простой 8-битный ввод JIS X 0201 без предварительного преобразования из-за различного представления катаканы JIS X 0201 (с одинарными сдвигами).
  11. ^ JIS X 0212 в EUC-JP не всегда реализован.
  12. ^ Помимо свойств самих кодировок, форматы Unicode имеют дополнительные преимущества, вытекающие из базового набора символов: они не ограничены символами JIS, но могут представлять всю UCS (включая полный репертуар символов JIS), и, следовательно, подходят для международного использования. Они также менее сильно подвержены влиянию конфликтующих фирменных расширений из-за их большего базового репертуара и обозначенных областей частного использования.
  13. ^ Большинство побитовых сдвигов фреймов текста в кодировке UTF-8 приведут к созданию недопустимого UTF-8, однако можно создать последовательности символов, которые останутся допустимыми в UTF-8 даже при сдвиге фрейма на один или несколько бит.
  14. ^ Только Microsoft.
  15. ^ Хотя GB 18030 и GBK являются расширениями формы EUC-CN GB/T 2312, они не следуют ограничениям EUC или ISO 2022, в отличие от EUC-JP (или исходного EUC-CN).
  16. ^ Хотя теоретически UTF-32 является самосинхронизирующимся только для 32-битных dword-слов, использование 32-битного значения для представления 21-битного значения означает, что на практике UTF-32 содержит непрерывную последовательность из не менее 11 нулевых бит в верхней части каждого символа, что обычно можно использовать для выравнивания по границам символов в зависимости от задействованных кодовых точек.

История

До тех пор, пока не пройдет пять лет после того, как был установлен, повторно утвержден или пересмотрен Японский промышленный стандарт, предыдущий стандарт проходит процесс повторного утверждения, пересмотра или отмены. С момента установления стандарт подвергался пересмотру три раза, и в настоящее время действует четвертый стандарт.

Первый стандарт

Первый стандарт — JIS C 6226-1978 «Код набора японских графических символов для обмена информацией» (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) , установленный министром международной торговли и промышленности Японии 1 января 1978 года. Его также сокращенно называют 78JIS . По поручению Агентства промышленной науки и технологий комитет по исследованиям и изучению стандартизации кодов кандзи JIPDEC подготовил проект. Председателем комитета был Моригучи Сигэйчи.

Код включал 453 некандзи (включая хирагану, катакану, латинский, греческий и кириллический алфавиты и знаки препинания) и 6349 кандзи (2965 кандзи уровня 1 и 3384 кандзи уровня 2), что в общей сложности составляло 6802 символа. [12] Он еще не включал символы для рисования рамок . Сам стандарт был установлен в шрифте Ishii Mincho компании Shaken Co., Ltd.

Второй стандарт

Второй стандарт JIS C 6226-1983 «Код набора японских графических символов для обмена информацией» (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) пересмотрел первый стандарт 1 сентября 1983 года. Он также называется 83JIS . По поручению AIST комитет JIPDEC, связанный с кодами кандзи, подготовил проект JIS. Председателем комитета был Мотоока Туру.

Проект второго стандарта был основан на рассмотрении таких факторов, как обнародование кандзи дзёё , введение кандзи дзинмэйё и стандартизация японского телетекса Министерством почт и телекоммуникаций ; также была выполнена следующая модификация, чтобы соответствовать JIS C 6234-1983 (формы символов матричного принтера с 24 пикселями; в настоящее время JIS X 9052).

Добавление специальных символов
К специальным символам было добавлено 39 символов. Из этих 39, согласно рекомендациям JICST и из таких стандартов, как JIS Z 8201-1981 (математические символы) и JIS Z 8202-1982 (количество, единица и химические символы), были выбраны вещи, которые не могли быть представлены составом.
Недавно добавленные персонажи для рисования коробок
Добавлено 32 персонажа-рисунка коробок .
Обмен кодовых точек итайдзи
Кодовые точки для 22 пар вариантов кандзи были поменяны местами, так что вариант на уровне 2 был перемещен на уровень 1 и наоборот. [12] [13] Например, строка 36, ячейка 59 (уровня 1) в первом стандарте () была перемещена в строку 52, ячейку 68 (уровня 2); точка, изначально находившаяся в строке 52, ячейке 68 (), в свою очередь была перемещена в строку 36, ячейку 59.
Дополнения к кандзи 2-го уровня
Три символа из уровня 1 и один символ из уровня 2 получили новые кодовые точки в ранее не назначенных кодовых точках в строке 84 как кандзи уровня 2. Итайдзи для каждой из этих кодовых точек были заново назначены на свои исходные места. [14] Например, ячейка 1 строки 84 во втором стандарте () была перемещена туда, чтобы разместить другую форму, не включенную в первый стандарт в строке 22 ячейку 38 как кандзи уровня 1 ().
Изменение форм символов
Были изменены формы приблизительно 300 иероглифов. [15]

Среди изменений в этих 300 или около того формах символов кандзи, многие глифы уровня 1, которые были в стиле словаря Канси, были изменены на варианты, и особенно более упрощенные формы (например, рякудзи и расширенный синдзитай ). Например, пара кодовых точек, которые часто подвергаются критике из-за того, что были сильно изменены, это строка 18, ячейка 10 (78JIS:, 83JIS:) и строка 38, ячейка 34 (78JIS:, 83JIS:).

Было много более мелких изменений в сторону от вариантов стиля Канси; например, строка 25, ячейка 84 () потеряла часть черты. Кроме того, там, где некоторые глифы для кандзи уровня 1 не были формами стиля Канси, некоторые были изменены на формы стиля Канси; например, строка 80, ячейка 49 () приобрела часть черты (т. е. ту же часть черты, которую потеряли 25-84).

Чтобы прояснить первоначальный замысел первого стандарта, они в конечном итоге попали в параметры для критериев унификации в четвертом стандарте. Различие в форме для примеров, отмеченных выше ("" и "") попадает под параметры для критерия унификации 42 (касательно компонента ""). [t]

Основная часть изменений в формах символов — это различия между кандзи уровня 1 и уровня 2. В частности, упрощение чаще применялось к кандзи уровня 1, чем к кандзи уровня 2; упрощения, применяемые к кандзи уровня 1 (например, "" на "" и "" на ""), как правило, не применялись к кандзи уровня 2 ("" остались без изменений). Вышеупомянутые 25-84 () и 80-49 () также получили различную обработку, поскольку первый находится на уровне 1, а последний — на уровне 2. Тем не менее, были некоторые изменения независимо от уровня; например, символы, содержащие компоненты "дверь" () и "зима" (), были изменены без какой-либо разницы в обработке между кандзи уровня 1 и уровня 2.

Однако для 29 кодовых точек (таких как проблемные 18-10 и 38-34, упомянутые выше) формы, унаследованные четвертым стандартом, противоречат изначальному замыслу первого. Для них существуют специальные критерии унификации, чтобы поддерживать совместимость с предыдущими стандартами в этих кодовых точках.

Когда 1 марта 1987 года была введена новая категория «X» для японских промышленных стандартов (для областей, связанных с информацией), второй стандарт был переименован в JIS X 0208-1983 [12] .

Третий стандарт

Третий стандарт JIS X 0208-1990 «Кодекс набора японских графических символов для обмена информацией» (情報交換用漢字符号, Jōhō Kōkan'yō Kanji Fugō ) пересмотрел второй стандарт 1 сентября 1990 года. Его также называют 90JIS для краткости. По поручению AIST комитет Японской ассоциации стандартов по пересмотру JIS X 0208 создал проект. Председателем комитета был Тадзима Кадзуо.

225 иероглифов кандзи были изменены, и два символа были добавлены на уровень 2 (84-05 "" и 84-06 ""). Это было разъединение итайдзи для двух уже включенных символов (49-59 "" и 63-70 ""). Некоторые из изменений и два дополнения соответствовали 118 кандзи дзинмэйё, добавленным в марте 1990 года. [12] Сам стандарт был установлен в Хэйсэй Минтё.

Четвертый стандарт

Четвертый стандарт JIS X 0208:1997 «7-битные и 8-битные наборы кандзи с двухбайтовой кодировкой для обмена информацией» ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, в Ойоби Хачи-Битто нет Ni-Baito Jōhō Kōkan’yō Fugōka Kanji Shugo ) пересмотрел третий стандарт 20 января 1997 года. Для краткости его также называют 97JIS . По поручению AIST комитет JSA по исследованию и изучению наборов кодированных символов подготовил проект. Председателем комитета был Сибано Кодзи.

Основные принципы этого пересмотра заключались в том, чтобы не вносить никаких изменений в набор символов, прояснять неоднозначные положения и делать стандарт относительно более простым в использовании. Добавление, удаление и перестановка кодовых точек не производились, и без исключения примеры глифов также были оставлены без изменений. Однако положения стандарта были полностью переписаны и/или дополнены. В то время как третий стандарт был длиной 65 страниц без объяснений, четвертый стандарт был длиной 374 страницы без объяснений.

Основные пункты пересмотра:

Определение методов кодирования
До третьего стандарта был определен только метод кодирования на основе расширения кода JIS X 0202. Это что-то необычное, если говорить о кодированных наборах символов. В четвертом стандарте были определены методы кодирования, которые не используют escape-последовательности для расширения кода.
Определение общего запрета на использование неназначенных кодовых точек и методов использования неназначенных кодовых точек
Третий стандарт, в пояснении, которое не было частью стандарта, описывал вещи так, как будто были места, где для некоторых неназначенных кодовых точек было приемлемо назначать gaiji. В четвертом стандарте было разъяснено, что использование неназначенных кодовых точек, как правило, запрещено. Также были указаны условия использования неназначенных кодовых точек.
Общее устранение дублирующихся кодировок
Каждому символу было присвоено «имя символа», которое сопоставлялось с именами других стандартов. Также были указаны методы кодирования для их использования вместе с Международной справочной версией ISO/IEC 646 или JIS X 0201. Когда JIS X 0208 используется вместе с любым из них, из двух назначенных кодовых точек для символов с одинаковым именем разрешается только одна; таким образом, дублирующие кодировки, как правило, устранялись.
Исследование источников кандзи
Были идентифицированы символы, включенные в стандарт до сих пор, которые не встречаются ни в словаре Канси , ни в Дай Канва Дзитен . Соответственно, было исследовано, с какой именно целью включения и из каких источников эти кандзи пришли во время составления первого стандарта.
Определение критериев объединения кандзи
На основе таких вещей, как материалы для составления первого стандарта, была сделана попытка восстановить намерение первого стандарта для области действия глифов, которые представляет каждая кодовая точка. Более того, были четко определены критерии унификации глифов кандзи.
Включение стандартов де-факто
К моменту принятия четвертого стандарта методы кодирования Shift JIS и ISO-2022-JP стали фактическими стандартами для персональных компьютеров и электронной почты соответственно. Эти методы кодирования были включены как «Shift-Coded Representation» и «RFC 1468-Coded Representation» (описано выше).

Преемники

JIS X 0213 (расширенные кандзи) был разработан «с целью предложить достаточный набор символов для кодирования современного японского языка, каковым JIS X 0208 изначально и задумывался»; [16] он определяет набор символов, который расширяет набор кандзи JIS X 0208. Составители JIS X 0213 рекомендуют перейти от JIS X 0208 к JIS X 0213, среди преимуществ которого — совместимость JIS X 0213 со списком символов кандзи Hyōgai и с более новыми кандзи jinmeiyō .

Вопреки ожиданиям разработчиков, принятие JIS X 0213 было совсем не быстрым с момента его принятия в 2000 году. Редакционный комитет JIS X 0213:2004 написал (в 2004 году): «Статус, при котором «большинство информационных систем могут использовать только JIS X 0208», все еще сохраняется» (JIS X 0213:2000, Приложение 1:2004, раздел 2.9.7).

Для Microsoft Windows , преобладающей операционной системы (и, следовательно, поставляющей преобладающую среду рабочего стола ) в секторе персональных компьютеров, репертуар JIS X 0213 был включен с Windows Vista , выпущенной в ноябре 2006 года. Mac OS X совместима с JIS X 0213 с версии 10.1 (выпущенной в 2001 году). Многие Unix-подобные системы, такие как Linux, могут (опционально) поддерживать JIS X 0213 при желании. Поэтому считается, что со временем поддержка JIS X 0213 на персональных компьютерах не будет препятствием для его окончательного принятия.

Среди разработчиков JIS X 0213 есть те, кто ожидает увидеть смесь JIS X 0208 и JIS X 0213 до принятия JIS X 0213 (Satō, 2004). Однако JIS X 0208 продолжает использоваться в настоящее время, и многие предсказывают, что он останется стандартом. Существуют барьеры, которые необходимо преодолеть, если JIS X 0213 должен заменить JIS X 0208 в общем использовании:

Реализации

Поскольку JIS X 0208 / JIS C 6226 — это в первую очередь набор символов , а не строго определенная кодировка символов , несколько компаний внедрили собственные кодировки набора символов.

Некоторые из них включают в себя назначения символов, специфичные для поставщика, вместо нераспределенных областей стандарта. К ним относятся Windows-932 и MacJapanese, а также кодировка символов PC98 от NEC . Хотя IBM-932 и IBM-942 также включают назначения поставщиков, они включают их за пределами области, используемой для JIS X 0208.

Связь с другими стандартами

ISO/IEC 646 IRV и ASCII

Как отмечено выше, набор кандзи не совместим снизу вверх с набором графических символов ISO/IEC 646:1991 IRV (ASCII). Набор кандзи и набор графических символов IRV могут использоваться вместе, как указано в JIS X 0208 (IRV + 7-битный код для кандзи и IRV + 8-битный код для кандзи). Их также можно использовать вместе в EUC-JP .

JIS X 0201

В наборе кандзи отсутствуют три символа, включенные в набор графических символов JIS X 0201 для латинских символов: 2/2 (КАВЫЧКИ), 2/7 (АПОСТРОФ) и 2/13 (ДЕФИС-МИНУС). Набор кандзи содержит все символы, включенные в набор графических символов JIS X 0201 для катаканы.

Набор кандзи и набор графических символов для латинских символов могут использоваться вместе, как указано в JIS X 0208 (латинские символы + 7-битный код для кандзи и латинские символы + 8-битный код для кандзи). Набор кандзи, набор графических символов для латинских символов и набор графических символов JIS X 0201 для катаканы могут использоваться вместе, как указано в JIS X 0208 (набор символов с кодировкой shift; т. е. Shift JIS ). Набор кандзи и набор графических символов для катаканы могут использоваться вместе в EUC-JP .

JIS X 0212

JIS X 0212 (дополнительные кандзи) определяет дополнительные символы с кодовыми точками для обработки информации, для которой требуются символы, отсутствующие в JIS X 0208. Вместо того чтобы выделять символы в основном наборе кандзи JIS X 0208, он определяет второй набор кандзи размером 94 на 94, содержащий дополнительные символы.

JIS X 0212 можно использовать с JIS X 0208 в EUC-JP . Кроме того, JIS X 0208 и JIS X 0212 являются исходными стандартами для унификации Хань UCS/Unicode , что означает, что кандзи из обоих наборов могут быть включены в один документ в формате Unicode.

Среди кодовых точек, измененных второй версией JIS X 0208, 28 кодовых точек в JIS X 0212 отражают формы символов до изменений. [17] Кроме того, JIS X 0212 переназначает « закрывающий знак », который JIS X 0208 назначил как некандзи ( , в строке 1, ячейке 26), как кандзи (, в строке 16, ячейке 17). JIS X 0212 не имеет общих символов с JIS X 0208, кроме этих. Следовательно, он не подходит для общего использования сам по себе.

Однако в четвертой версии JIS X 0208 связь с JIS X 0212 вообще не была определена. Считается, что это произошло потому, что редакционный комитет четвертого стандарта JIS X 0208 имел критическое мнение о методах выбора и идентификации JIS X 0212. [18] Значения символов и обоснования выбора не были должным образом задокументированы, что затрудняло определение того, соответствуют ли желаемые кандзи тем, что есть в его репертуаре. [19] Текст четвертого стандарта, а также указание на проблемные моменты выбора символов JIS X 0212, гласит, что «считается, что не только выбор символов невозможен, но и их невозможно использовать вместе; связь с JIS X 0212 вообще не определена». (раздел 3.3.1)

JIS X 0213

Диаграмма Эйлера, сравнивающая репертуары JIS X 0208, JIS X 0212 , JIS X 0213 , Windows-31J , стандартный репертуар Microsoft и Unicode .

JIS X 0213 (расширенный кандзи) определяет набор кандзи, который расширяет набор кандзи JIS X 0208. Согласно этому стандарту, он «разработан с целью предложить достаточный набор символов для кодирования современного японского языка, каковым JIS X 0208 задумывался с самого начала». [16]

Набор кандзи JIS X 0213 включает в себя все символы, которые могут быть представлены в наборе кандзи JIS X 0208, со многими дополнениями. Всего JIS X 0213 определяет 1183 некандзи и 10 050 кандзи (всего 11 233 символа) в двух плоскостях 94 на 94 (, men ) . Первая плоскость (некандзи и кандзи уровня 1–3) основана на JIS X 0208, тогда как вторая плоскость (кандзи уровня 4) разработана так, чтобы вписываться в нераспределенные строки JIS X 0212, что позволяет использовать их в EUC-JP . [20] JIS X 0213 также определяет Shift_JISx0213 , вариант Shift_JIS, способный кодировать весь JIS X 0213.

Для большинства намерений и целей плоскость 1 JIS X 0213 является надмножеством JIS X 0208. Однако к некоторым кодовым точкам в JIS X 0213 применяются разные критерии унификации по сравнению с JIS X 0208. Следовательно, некоторым парам глифов кандзи, которые были представлены одной кодовой точкой JIS X 0208, из-за их унификации даны отдельные кодовые точки в JIS X 0213. Например, глиф в строке 33, ячейке 46 JIS X 0208 ("", описанный выше) унифицирует несколько вариантов благодаря своему правому компоненту. В JIS X 0213 две формы (содержащие компонент «») объединены в плоскости 1, строке 33, ячейке 46, а другая (содержащая компонент «») расположена в плоскости 1, строке 14, ячейке 41. Следовательно, следует ли сопоставлять ячейку 46 строки 33 JIS X 0208 с ячейкой 46 строки 33 JIS X 0213 или ячейкой 41 строки 14, не может быть определено автоматически. [u] Это ограничивает степень, в которой JIS X 0213 может считаться совместимым снизу вверх с JIS X 0208, как признал редакционный комитет JIS X 0213. [21]

Однако, по большей части, строка m ячейка n в JIS X 0208 соответствует плоскости 1 строка m ячейка n в JIS X 0213; поэтому на практике не возникает большой путаницы. Это связано с тем, что большинство шрифтов стали использовать глифы, представленные в JIS X 0208, и большинство пользователей не осознают критерии унификации.

ISO/IEC 10646 и Юникод

Набор кандзи JIS X 0208 входит в число исходных стандартов для унификации Хань в ISO/IEC 10646 (UCS) и Unicode . Каждый кандзи в JIS X 0208 соответствует своей собственной кодовой точке в базовой многоязычной плоскости (BMP) UCS/Unicode.

Некандзи в JIS X 0208 также соответствуют своим собственным кодовым точкам в BMP. Однако для некоторых специальных символов некоторые системы реализуют иные соответствия, чем в UCS/Unicode (которые основаны на именах символов, указанных в JIS X 0208:1997).

Сноски

Пояснительная

  1. ^ Отсутствуют греческие диакритические знаки и конечная сигма .
  2. ^ abcd (Снято)
  3. ^ JIS и Apple: U+2014.
    Unicode, [b] Microsoft и WHATWG: U+2015.
  4. ^ Microsoft и WHATWG: U+FF5E.
    Unicode, [b] JIS и Apple: U+301C.
  5. ^ Microsoft и WHATWG: U+2225.
    Unicode, [b] JIS и Apple: U+2016.
  6. ^ Microsoft: U+FF0D.
    Unicode, [b] JIS и Apple: U+2212.
    WHATWG: U+FF0D при декодировании, в исключительных случаях оба при кодировании.
  7. ^ abcd Добавлено в JIS X 0213
  8. ^ Отсутствует в оригинальной версии расширения, которая предшествовала эпохе Хэйсэй . Позиция кода выбрана либо NEC, либо Microsoft. [5] Отсутствует в Macintosh PostScript.
  9. ^ abcdefghi Дублируется дополнениями, сделанными в строке 2 в 1983 году. Здесь не кодируется (но остается нераспределенным) в JIS X 0213, [5], но дублируется здесь Microsoft и WHATWG. Что касается кодировки Macintosh PostScript, то к форме, декодированной с помощью функций библиотеки macOS, добавляется Private Use U+F87F, чтобы разрешить кругооборот.
  10. ^ Как показано в кодовых таблицах, зарегистрированных в Международном регистре кодированных наборов символов для использования с управляющими последовательностями, до четвертого стандарта (1997) ku () и ten () назывались "section" и "position" соответственно в английском языке. Что касается предыстории изменений в английском языке, в стандарте JIS X 0221-1995 (UCS), который перевел ISO/IEC 10646-1:1993, "group", "plane", "row" и "cell" можно перевести как gun () , men () , ku () и ten () . Однако row и cell в JIS X 0208 и row и cell в UCS — это разные понятия.
  11. ^ Имена персонажей даны латинскими буквами и используются на международном уровне, поэтому их можно считать международной конвенцией, чем-то вроде научных названий живых организмов. В отношении этой аналогии японские общепринятые имена персонажей были бы подобны использованию общепринятых названий организмов.
  12. ^ Для полнофункционального поиска или сортировки в порядке каны необходимо учитывать чтение слов, знаки повторения и т. д. Сортировка строк японских символов предписана в JIS X 4061 (Сортировка строк японских символов).
  13. ^ По словам Ясуоки (2001a), похоже , были некоторые случайные упущения. Он отмечает, например, что ba (, 58-57) Инбы и shi (, 61-89) Шисуи , Кумамото не являются частью уровня 1.
  14. Список Футбол , Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Видео футуристические футуристические новости
  15. ^ Кандзи дзёё 𠮟󠄀 включено только в его официальной форме 叱.
  16. Список Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный футбол Футбольный футбол Футбольный футбол Футбольный футбол Футбольный футбол Футбольный футбольный матч Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный футбол Футбольный футбольный матч футуристический футуристический футляр футуристический футуристический футляр футуристический футуристический футляр футуристический футуристический фильм Футбольные клубы, футбольные матчи, футбольные матчи, футбольные матчи, футбольные матчи, футбольные матчи Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб футуристический футуристический футляр футуристический футуристический футуристический футляр футуристические новости футуристические новости футбол-футбол-футбол-футбол Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб
  17. ^ Список:焰Result 鷗 俠 Football Football 繡Result 渚Result 蔣 Result 醬 Football 琢Result 琢Result 繡Result 摑Result 顚 Football禱футбола, футбол, футбол, фут, фут, фут, фут, футурис, футурис, футуристик, футуристик, футуристик, футуристик, футуристик, футуристик, футуристик, футуристический футуристический футуристический фильм или футуристическая игра.薰֠諸蠄賴футболгофутбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол.海 Football, Football Football, Football Football, Football Football, Football Football, Football Football, Football Football, Football Football, Football Football, Football.視футбол 煮футболлфутфутбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол,футбол. Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный футбол Футбольный матч, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол.淚Result 類 Result 曆 Result 歷 Football Football 錄 Football 俱 Football 瘦Result 吞Result 寬Result 廊 Football 懲
  18. ^ Для ячеек 30 и 31 строки 19 порядок их репрезентативных чтений перепутан. Следовательно, там, где правильный порядок должен быть kaeru (, «лягушка»), за которым следует kaori (, «аромат») , их позиции переставлены так, что kaori предшествует kaeru .
  19. ^ Кроме того, наиболее часто используемый вариант () находится в строке 23, ячейке 85 на уровне 1, а еще один вариант () можно найти сгруппированным как имеющий «золотой» радикал в строке 78, ячейке 63 на уровне 2.
  20. ^ Вопрос о том, какие глифы в рамках критериев унификации следует использовать, остается на усмотрение дизайнера шрифтов. В зависимости от этого (и обстоятельств конечного пользователя) возможно, что ни один из этих двух, оба, один или другой не будут следовать форме стиля Канси.
  21. ^ Такая же неопределенность существует и в отношении того, следует ли преобразовывать «ДЕФИС-МИНУС» в ISO/IEC 646 в «ДЕФИС» или «ЗНАК МИНУС» в JIS X 0208.

Справочные сноски

  1. ^ «Почему Япония не создала iPod». Gatunka . 5 мая 2008 г.
  2. ^ JIS X 0208 не входил в число стандартов, включенных в список применимых целевых систем для отображения нового знака JIS, объявленный Министерством экономики, торговли и промышленности 17 января 2007 года.
  3. ^ abc Стил, Шон (15 апреля 1998 г.). "CP932.TXT: cp932 в таблицу Unicode". Microsoft.(коды в формате Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
  4. ^ ab "Преобразование (внешняя версия) японской кодировки Mac OS в Unicode 2.1 и более поздние версии". Apple.(коды в формате Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
  5. ^ abcd Лунде, Кен (21 марта 2019 г.). «Краткая история японских лигатур названий эпох». Блог CJK Type . Adobe Inc.
  6. ^ abc Японский комитет по промышленным стандартам . ISO-IR-233: Японский набор графических символов для обмена информацией, уровень 1 (обновление ISO-IR 228) (PDF) . ITSCJ/ IPSJ .
  7. Unicode, Inc. (14 октября 2011 г.). «JIS X 0208 (1990) в Unicode».
  8. ^ ван Кестерен, Энн , «Индекс jis0208», Стандарт кодирования , WHATWG
  9. ^ ab Jungshik Shin (14 октября 2011 г.). "KSX1001.TXT: KS X 1001 в таблице Unicode". Unicode, Inc.
  10. ^ JIS C 6225-1979 (коды управляющих символов для набора японских графических символов для обмена информацией) предоставил управляющие символы для начала и конца композиции. JIS C 6225 был переименован в JIS X 0207 в 1987 году и был отозван в 1997 году.
  11. ^ В наборах символов IANA Shift JIS определяется ссылкой на JIS X 0208:1997 Приложение 1.
  12. ^ abcd "15. История JIS X 0208" (PDF) , IBM Japanese Graphic Character Set for Extended UNIX Code (EUC) , IBM, стр. 371, архивировано (PDF) из оригинала 8 декабря 2017 г. , извлечено 8 декабря 2017 г.
  13. ^ Ланде, Кен. «Приложение Q § 78-vs-83-3». Обработка информации CJKV (дополнительный материал) . O'Reilly.Обратите внимание на включение кодов кутен с опущенным дефисом.
  14. ^ Ланде, Кен. «Приложение Q § 78-vs-83-2». Обработка информации CJKV (дополнительный материал) . O'Reilly.Обратите внимание на включение кодов кутен с опущенным дефисом.
  15. ^ По данным Номуры (1984), число измененных форм символов, включая перемещения между кодовыми точками, составляет 294. По данным Шибано (1997a) и тексту четвертого стандарта, число измененных форм символов составляет 300.
  16. ^ ab Оригинальный японский: 「JIS X 0208が当初符号化を意図していた現代日本語を符号化するために十分な文字集合を提供することを目的として設計された」
  17. ^ Ланде, Кен. «Приложение Q § TJ2». Обработка информации CJKV (дополнительный материал) . O'Reilly.Обратите внимание на включение кодов кутен с опущенным дефисом.
  18. ^ Например, Сибано Кодзи (1997a), который был председателем редакционного комитета четвертого стандарта, так сказал о методе выбора: «Он основан на поверхностном понимании выбора набора символов JIS X 0208; это ошибочное понимание» (исходный японский: 「JIS X 0208の文字集合選定の表層的理解に基づくものであり、間違った理解である」 ) и «Существует большая проблема при исследовании всего набора символов, длина которого превышает 10 000 символов. ." (оригинальный японский: 「1万字を越える水準の文字集合の検討としては、大きな問題がある」 )
  19. ^ Марукава, Казуши. "JIS Character Sets – JIS X 0212:1990". Архивировано из оригинала 22 мая 2005 г.
  20. ^ Чанг, Хешик (31 октября 2021 г.). «Readme для CJKCodecs». cPython . Python Software Foundation.
  21. ^ JIS X 0213:2000 раздел 5.3.2, JIS X 0213:2000 Приложение 1:2004 раздел 3.2.2

Смотрите также

Ссылки

Для целей цитирования эти японские имена представлены в западном порядке там, где они романизированы, и сохраняют восточный порядок там, где они не романизированы.

Внешние ссылки