stringtranslate.com

ДЖИС Х 0208

JIS X 0208 — это 2-байтовый набор символов , определенный японским промышленным стандартом и содержащий 6879 графических символов, подходящих для написания текста, географических названий, личных имен и т. д. на японском языке . Официальное название текущего стандарта — наборы кандзи с 7-битной и 8-битной двухбайтовой кодировкой для обмена информацией ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto Oyobi Hachi-Bitto). нет, Ни- Байто Джохо Коканъё Фугока Кандзи Сюго ) . Первоначально он был установлен как JIS C 6226 в 1978 году и пересматривался в 1983, 1990 и 1997 годах. IBM также называет его кодовой страницей 952 . Версия 1978 года также называется IBM кодовой страницей 955 .

Область использования и совместимость

Набор символов, установленный JIS X 0208, в первую очередь предназначен для обмена информацией (情報交換, jōhō kōkan ) между системами обработки данных и подключенными к ним устройствами или взаимно между системами передачи данных. Этот набор символов можно использовать для обработки данных и обработки текста.

Частичные реализации набора символов не считаются совместимыми. Потому что есть места, где случались такие вещи, как первоначальный редакционный комитет первого стандарта, который заботился о разделении персонажей между уровнями 1 и 2, а затем второго стандарта, а затем перетасовывал некоторые варианты символов (異体字, итайдзи ) между уровнями, по крайней мере. в первом и втором стандартах предполагается, что японские компьютерные системы, не использующие кандзи и реализующие только уровень 1, одно время рассматривались для разработки. Однако такие реализации никогда не считались совместимыми, хотя такие примеры, как ранний NEC PC-9801, существовали. [1]

Несмотря на то, что в стандарте JIS X 0208:1997 есть положения, касающиеся совместимости, в настоящее время обычно считается, что этот стандарт не подтверждает совместимость и не является официальным производственным стандартом, который представляет собой декларацию самосовместимости. [2] Следовательно, де-факто «совместимые» по стандарту JIS X 0208 продукты не считаются существующими. Такая терминология, как «соответствующий» (準拠, junkyo ) и «поддержка» (対応, taiō ) включена в JIS X 0208, но семантика этих терминов варьируется от человека к человеку.

Таблицы кодов

Ведущий байт

Первый байт кодирования соответствует номеру строки или ячейки плюс 0x20 или 32 в десятичном формате (см. ниже). Следовательно, кодовый набор, начинающийся с 0x21, имеет номер строки 1, а его ячейка 1 имеет байт продолжения 0x21 (или 33) и так далее.

Для ведущих байтов, используемых для символов, отличных от кандзи , предоставляются ссылки на таблицы на этой странице, в которых перечислены символы, закодированные под этим ведущим байтом. Для ведущих байтов, используемых для кандзи, предоставляются ссылки на соответствующий раздел указателя кандзи Викисловаря .

Строки, не написанные на кандзи

Набор символов 0x21 (номер строки 1, специальные символы)

Некоторые поставщики используют для этого набора несколько иное сопоставление Unicode, чем приведенное ниже. Например, Microsoft сопоставляет kuten 1-29 (JIS 0x213D) с U+2015 (горизонтальная полоса), [3] , тогда как Apple сопоставляет его с U+2014 (Em Dash). [4] Аналогично, Microsoft сопоставляет kuten 1-61 (JIS 0x215D) с U+FF0D [3] (полноширинная форма U+002D Дефис-Минус), а Apple сопоставляет его с U+2212 (Знак Минус). [4] Отображение волнового тире в Юникоде также различается у разных поставщиков. См. ячейки со сносками ниже.

Знаки пунктуации ASCII и JISCII (показаны здесь на желтом фоне) могут использовать альтернативные сопоставления с блоком форм половинной и полной ширины , если они используются в кодировке, которая сочетает в себе JIS X 0208 с ASCII или с JIS X 0201 , например Shift JIS , EUC-JP или ИСО 2022-ЯП .

Набор символов 0x22 (номер строки 2, специальные символы)

Большинство символов в этом наборе были добавлены в 1983 году, за исключением символов 0x2221–0x222E (кутен от 2-1 до 2-14 или первая строка таблицы ниже), которые были включены в исходную версию стандарта 1978 года.

Набор символов 0x23 (номер строки 3, цифры и латинские буквы)

Этот набор включает в себя подмножество инвариантного набора ISO 646 (и, следовательно, также подмножество как ASCII , так и римского набора JIS X 0201 ), за вычетом знаков препинания и символов, включая западные арабские цифры и оба регистра основного латинского алфавита . Символы в этом наборе могут использовать альтернативные сопоставления Юникода с блоком форм половинной и полной ширины , если они используются в кодировке, которая сочетает в себе JIS X 0208 с ASCII или с JIS X 0201, например EUC-JP , Shift JIS или ISO 2022-JP .

Сравните строку 3 KPS 9566 , которой точно соответствует эта строка. Сравните и сопоставьте строку 3 KS X 1001 и GB 2312 , которые включают в эту строку все национальные варианты ISO 646 , а не только буквенно-цифровой подмножество.

Набор символов 0x24 (строка номер 4, Хирагана)

В этой строке находится японская хирагана .

Сравните строку 4 GB 2312 , которая соответствует этой строке. Сравните и сопоставьте 10-й ряд KPS 9566 и KS X 1001 , которые используют одну и ту же компоновку, но в другом ряду.

Набор символов 0x25 (строка номер 5, катакана)

В этой строке содержится японская катакана .

Сравните строку 5 GB 2312 , соответствующую этой строке. Сравните и сопоставьте 11-й ряд KPS 9566 и KS X 1001 , в которых используется одинаковая компоновка, но в другом ряду. Сравните значительно отличающуюся раскладку катаканы, используемую в JIS X 0201 .

Набор символов 0x26 (номер строки 6, греческий)

Эта строка содержит базовую поддержку современного греческого алфавита без диакритических знаков и последней сигмы .

Сравните строку 6 GB 2312 и GB 12345 и строку 6 KPS 9566 , которые содержат те же греческие буквы в той же раскладке, хотя GB 12345 добавляет вертикальные формы представления, а KPS 9566 добавляет римские цифры. Сравните и сопоставьте строку 5 KS X 1001 , в которой греческие буквы смещены, чтобы сначала включить римские цифры.

Набор символов 0x27 (номер строки 7, кириллица)

Этот ряд содержит современный русский алфавит и не обязательно достаточен для представления других форм кириллицы .

Сравните строку 7 GB 2312 , которая соответствует этой строке. Сравните и сопоставьте строку 12 KS X 1001 и строку 5 KPS 9566 , в которых используется одинаковая компоновка (но в другом ряду).

Набор символов 0x28 (номер строки 8, рисунок рамки)

Все символы в этом наборе были добавлены в 1983 году и не присутствовали в исходной версии стандарта 1978 года.

Набор символов расширения 0x2D (номер строки 13, специальные символы NEC)

Строки с 9 по 15 стандарта JIS X 0208 остаются пустыми.

Однако следующая схема для строки 13, впервые представленная NEC , является распространенным расширением. Он используется (с небольшими изменениями, отмеченными в сносках) Windows-932 [3] (который соответствует стандарту кодирования WHATWG , используемому HTML5 ), вариантом PostScript (но, начиная с KanjiTalk версии 7, а не обычным вариантом). [5] MacJapanese и JIS X 0213 (преемник JIS X 0208). [5] [6] В отличие от других расширений, созданных Windows-932/WHATWG и JIS X 0213, они совпадают, а не конфликтуют, поэтому декодирование большей части этой строки поддерживается лучше, чем другие расширения, созданные JIS X 0213.

Кандзи строки

Структура кода

Для представления кодовых точек номера столбцов/строк используются для однобайтовых кодов, а номера кутенов используются для двухбайтовых кодов. Для идентификации символа независимо от кода используются имена символов.

Однобайтовые коды

Почти все коды графических символов JIS X 0208 представлены двумя байтами по крайней мере по семь бит каждый. Однако каждый управляющий символ , а также простое пространство (но не идеографическое пространство ) представлены однобайтовым кодом. Для представления битовой комбинации (ビット組合せ, bitto kumiawase ) однобайтового кода используются два десятичных числа – номер столбца и номер строки . Три старших бита из семи или четыре старших бита из восьми, считая от нуля до семи или от нуля до пятнадцати соответственно, образуют номер столбца. Четыре младших бита от нуля до пятнадцати образуют номер строки. Каждое десятичное число соответствует одной шестнадцатеричной цифре. Например, битовая комбинация, соответствующая графическому символу «пробел», равна 010 0000 как 7-битному числу и 0010 0000 как 8-битному числу. В обозначении столбца/строки это представлено как 2/0. Другие представления того же однобайтового кода включают 0x20 в шестнадцатеричном виде или 32 в виде одного десятичного числа.

Кодовые точки и кодовые номера

Двухбайтовые коды разбиты на 94 пронумерованные группы, каждая из которых называется строкой (, ку , букв. «раздел») . Каждая строка содержит 94 пронумерованных кода, каждый из которых называется ячейкой (, десять , букв. «точка») . [j] Всего получается 8836 (94 × 94) возможных кодовых точек (хотя не все назначены, см. ниже); В стандарте они представлены в виде кодовой таблицы из 94 строк и 94 столбцов.

Номер строки и номер ячейки (каждая из которых пронумерована от 1 до 94 для стандартного кода JIS X 0208) образуют точку кутен (区点) , которая используется для представления двухбайтовых кодовых точек. Кодовый номер или номер кутен (区点番号, kuten bangō ) выражается в форме «строка-ячейка», при этом номера строки и ячейки разделяются дефисом . Например, символ «» имеет кодовую точку в строке 16, ячейке 1, поэтому его кодовый номер представлен как «16-01».

В 7-битном JIS X 0208 (который может быть переключен в JIS X 0202/ ISO-2022-JP ) оба байта должны быть из 94-байтового диапазона от 0x21 (используется для номера строки или ячейки 1) до 0x7E ( используется для номера строки или ячейки 94) — точно соответствует диапазону, используемому для печати 7-битных символов ASCII, не считая пробела. Соответственно, закодированные байты получаются добавлением к каждому числу 0x20 (32). [7] Например, приведенный выше пример 16-01 («亜») будет представлен байтами 0x30 0x21. Вместо этого 8-битный EUC-JP использует диапазон от 0xA1 до 0xFE (устанавливая старший бит на 1), тогда как другие кодировки, такие как Shift JIS, используют более сложные преобразования. Shift JIS включает больше места для кодирования, чем необходимо для самого JIS X 0208; некоторые расширения JIS X 0208, специфичные для Shift JIS, используют номера строк выше 94. [8]

Эта структура также используется в GB 2312 материкового Китая , где она изначально известна как区位; qūwèi и южнокорейский KS C 5601 (в настоящее время KS X 1001 ), где ку и тен соответственно известны как ханг [9] ( ;; хаенг ) и йол [9] ( ;; йёль ). Более поздний JIS X 0213 расширяет эту структуру, имея более одной плоскости (, men , букв. «лицо») строк, что также является структурой, используемой CNS 11643 , и связано со структурой, используемой CCCII .

Неназначенные кодовые точки

Среди 2-байтовых кодов строки с 9 по 15 и с 85 по 94 являются неназначенными кодовыми точками (空き領域, aki ryōiki ) ; то есть это кодовые точки, которым не присвоены никакие символы. Кроме того, некоторые ячейки в других строках также по существу являются неназначенными кодовыми точками.

Эти пустые области содержат кодовые элементы, которые в принципе не следует использовать. За исключением случаев, когда имеется предварительное соглашение между соответствующими сторонами, символы ( гайдзи ) для обмена информацией не должны назначаться неназначенным кодовым точкам.

Даже при присвоении символов неназначенным кодовым точкам им не следует назначать графические символы, определенные в стандарте, и один и тот же символ не следует назначать нескольким неназначенным кодовым точкам; символы не должны дублироваться в наборе.

Более того, при назначении символов неназначенным кодовым точкам необходимо соблюдать осторожность в отношении унификации глифов кандзи. Например, строка 25, ячейка 66 соответствует кандзи, означающему «высокий» или «дорогой»; как форма с компонентом, напоминающим символ «рот» () в середине (), так и менее распространенная форма с лестничной конструкцией в том же месте () включены в одну и ту же кодовую точку. Следовательно, ограничение точки 25–66 формой «рот» и присвоение последней формы «лестницы» неназначенной кодовой точке технически будет нарушением стандарта.

Однако на практике несколько вариантов Shift JIS , специфичных для конкретного поставщика, включая Windows-932 и MacJapanese , кодируют расширения поставщика в нераспределенных строках пространства кодирования для JIS X 0208. Кроме того, большинство кодов, не назначенных в JIS X 0208, назначаются новый стандарт JIS X 0213 .

Имена персонажей

Каждому символу JIS X 0208 присвоено имя . Используя имя персонажа, можно идентифицировать персонажей, не полагаясь на их коды. Имена символов скоординированы с другими стандартами наборов символов, в частности с универсальным набором кодированных символов (UCS/ Unicode ), поэтому это один из возможных источников сопоставления символов с наборами символов, такими как Unicode. Например, как символ в столбце 4 столбца 1 Международной справочной версии ISO/IEC 646 ( US-ASCII ), так и символ в строке 3 JIS X 0208, ячейке 33, имеют имя «ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A». Таким образом, символ 4/1 в ASCII и символ 3–33 в JIS X 0208 можно рассматривать как один и тот же символ (хотя на практике для символа JIS X 0208 используется альтернативное сопоставление из-за кодировок, предоставляющих ASCII отдельно). ). И наоборот, символы ASCII 2/2 (кавычка), 2/7 (апостроф), 2/13 (дефис-минус) и 7/14 (тильда) могут быть определены как символы, не существующие в этом стандарте.

В именах символов, не являющихся кандзи, используются заглавные латинские буквы, пробелы и дефисы. Символам, не являющимся кандзи, дается общее японское имя (日本語通用名称, Нихонго цуё мейсё ) , но некоторых положений для этих имен не существует. [k] Имена кандзи, с другой стороны, автоматически задаются в соответствии с соответствующим шестнадцатеричным представлением их кода в UCS/Unicode. Название кандзи можно получить, добавив к кодовому знаку Юникода «CJK UNIFIED IDEOGRAPH-». Например, ячейка 1 строки 16 () соответствует U+4E9C в UCS, поэтому ее имя будет «CJK UNIFIED IDEOGRAPH-4E9C». Кандзи не имеют общепринятых японских имен.

Набор кандзи

Обзор

JIS X 0208 предписывает набор из 6879 графических символов, которые соответствуют двухбайтовым кодам с семью или восемью битами в байте; в JIS X 0208 это называется набором кандзи (漢字集合, кандзи сюго ) , который включает 6355 кандзи, а также 524 не-кандзи (非漢字, хикандзи ) , включая такие символы, как латинские буквы , кана и т. д.

Специальные символы
Занимает строки 1 и 2. Имеется 18 символов-дескрипторов (記述記号, кидзюцу киго ) , таких как «идеографическое пространство» ( ), а также японские запятая и точка ; восемь диакритических знаков, таких как дакутен и хандакутен ; 10 символов для вещей, которые следуют за кана или кандзи (仮名又は漢字に準じるもの, кана мата ва кандзи ни дзюндзиру моно ) , например знак итерации ; 22 символа скобок (括弧記号, какко киго ) ; 45 математических символов (学術記号, гакудзюцу киго ) ; и 32 символа единиц , включая знак валюты и почтовую марку , всего 147 символов.
Цифры
Занимает часть строки 3. Десять цифр от «0» до «9».
Латинские буквы
Занимает часть третьего ряда. 26 букв английского алфавита в верхнем и нижнем регистре, всего 52.
Хирагана
Занимает 4-й ряд. Содержит 48 глухих кан (включая устаревшие ви и мы ), 20 звонких кан ( дакутэн ), 5 полуголосых кан ( хандакутен ), 10 малых кан для палатализированных и усваиваемых звуков, всего 83 символа.
Катакана
Занимает 5-ю строку. Всего 86 символов; в дополнение к катакане, эквивалентной символам хираганы, маленькой ка / ке кана (/) и ву кана ().
Греческие буквы
Занимает строку 6. 24 буквы греческого алфавита в верхнем и нижнем регистре (без последней сигмы ), всего 48.
Кириллические буквы
Занимает 7 строку. 33 буквы русского алфавита в верхнем и нижнем регистре, всего 66.
Персонажи, рисующие коробки
Занимает ряд 8. Тонкие сегменты, толстые сегменты и смешанные тонкие и толстые сегменты, всего 32.
Кандзи
2965 символов уровня 1 (第1水準, дайичи суйджун ) с 16 по 47 строку и 3390 символов 2 уровня (第2水準, дай ни суйджун ) с 48 по 84 строку, всего 6355.

Специальные символы, цифры и латинские символы

Что касается специальных символов в наборе кандзи, то некоторые символы из набора графических символов Международной справочной версии (IRV) стандарта ISO/IEC 646 :1991 (эквивалент ASCII ) отсутствуют в JIS X 0208. Существуют вышеупомянутые четыре символа. «КАВЫЧКИ», «АПОСТРОФ», «ДЕФИС-МИНУС» и «ТИЛЬДА». Первые три разделены на разные кодовые точки в наборе кандзи (Нисимура, 1978; стандарт JIS X 0221-1:2001, раздел 3.8.7). «ТИЛЬДА» в IRV не имеет соответствующего символа в наборе кандзи.

В следующей таблице рассматриваемые символы IRV ISO/IEC 646:1991 сравниваются с их многочисленными эквивалентами в JIS X 0208, за исключением символа IRV «TILDE», который сравнивается с «WAVE DASH» из JIS X 0208. Записи в столбцах «Символ» используют кодовые точки UCS/Unicode, поэтому особенности отображения могут отличаться.

Символам ASCII/IRV, не имеющим точных эквивалентов JIS X 0208, позже были присвоены кодовые точки JIS X 0213, они также перечислены ниже, как и сопоставление четырех символов Microsoft .

  1. ^ ab Из «Выбор расширений IBM NEC». Занимает кодовую точку, нераспределенную в JIS X 0208.
  2. ^ ab Из «Расширений IBM». Вне диапазона JIS X 0208, но кодируется в Shift_JIS.
  3. ^ Microsoft рассматривает знак минус JIS как полноширинную форму дефиса-минус.
  4. ^ ab Wave Dash иногда рассматривается как полноширинная форма тильды, например, Microsoft (см. Tilde § Unicode и Shift JIS-кодирование волнового тире ). Тильда ASCII/IRV — это неоднозначная кодовая точка, которая может отображаться либо как знак ударения тильды (˜), либо как тире с той же кривизной (∼), хотя тире встречается чаще из-за пробельного акцента, имеющего отдельную кодовую точку. в Windows-1252 ; для акцента тильды нет символа JIS X 0208. Символ 1-2-18 в JIS X 0213 отображается в таблице кодов как знак тильды. [6]

Это означает, что набор кандзи является наиболее распространенным набором символов, не совместимым с предыдущими версиями, в мире; это считается одним из слабых мест этого стандарта.

Даже несмотря на то, что набор кандзи и набор IRV имеют 90 общих специальных символов, цифр и латинских букв, этот стандарт не соответствует структуре ISO/IEC 646. Эти 90 символов разделены между строками 1 (пунктуация) и 3 ( буквы и цифры), хотя строка 3 соответствует расположению по ISO 646, состоящему только из 62 букв и цифр (например, 4/1(«A») в ISO 646 становится 2/3 4/1(т.е. 3-33) в JIS X 0208).

Что касается причины того, почему эти цифры, латинские буквы и т. д. в наборе кандзи являются «полноширинными буквенно-цифровыми символами» (全角英数字, zenkaku eisūji ) , и как исходная реализация имела другую интерпретацию по сравнению с IRV, считается, что это происходит из-за этой несовместимости.

Со времен первого стандарта стало возможным представлять составные элементы (合成, gōsei ) , такие как числа в кружочках , лигатуры для названий единиц измерения и римские цифры ; [10] им не были предоставлены независимые кодовые точки кутен. Хотя отдельные компании, производящие информационные системы, могут попытаться представить эти символы так, как того требуют клиенты, исходя из состава символов, ни одна из них не просила добавить их в стандарт, вместо этого предпочитая предлагать их как гайдзи .

В четвертом стандарте (1997 г.) все эти символы были явно определены как символы, сопровождающие продвижение по текущей позиции; то есть это пробельные символы . Более того, было постановлено, что они не должны составляться по составу персонажей. По этой причине стало запрещено вообще представлять латинские символы с диакритическими знаками, возможно, за единственным исключением символа ангстрема ( Å ) в строке 2, ячейке 82.

Хирагана и катакана

Хирагана и катакана в JIS X 0208, в отличие от JIS X 0201 , включают маркировку дакутен и хандакутен как часть символа. Также включены катакана ви () и мы () (оба устаревшие в современном японском языке), а также маленькая ва () , которой нет в JIS X 0201.

Расположение каны в JIS X 0208 отличается от расположения катаканы в JIS X 0201. В JIS X 0201 слоговое письмо начинается с во () , за которым следует маленькая кана, отсортированная по порядку годзюон , за которой следует полноразмерная кана. кана, также в порядке годзюон (ヲァィゥェォャュョッーアイウエオ......ラリルレロワン). С другой стороны, в JIS X 0208 кана сортируются сначала по порядку годзюон , затем в порядке «маленькая кана, полноразмерная кана, кана с дакутеном и кана с хандакутеном», так что одна и та же основная кана сгруппирована. с его производными (ぁあぃいぅうぇえぉお......っつづ......はばぱひびぴふぶぷへべぺほぼぽ......ゎわゐゑをん). Такой порядок был выбран для того, чтобы упростить сортировку словарных поисков на основе каны (Yasuoka, 2006). [л]

Как упоминалось выше, в этом стандарте порядок катаканы, ранее определенный в JIS X 0201, не соблюдался в JIS X 0208. Считается, что катакана JIS X 0201, являющаяся « каной половинной ширины », возникла из-за несовместимости с катаканой JIS X 0201. этот стандарт. Этот момент также является одним из слабых мест данного стандарта.

Кандзи

Как кандзи в этом стандарте были выбраны из каких источников, почему они разделены на уровень 1 и уровень 2 и как они устроены, все это подробно объясняется в четвертом стандарте (1997 г.). Согласно этому объяснению, кандзи, включенные в следующие четыре списка кандзи, были отражены в 6349 символах первого стандарта (1978 г.).

Комитет по кодированию кандзи Общества обработки информации Японии составил этот список в 1971 году. В приведенных ниже «Результатах анализа соответствия» он составляет 6086 символов.
Выбранный Агентством административного управления Японии в 1975 году, он состоит из 2817 символов. Для получения данных для целей отбора Агентство составило отчет, в котором, начиная с «Списка кандзи для стандартного кода (предварительно)», сравнивались несколько списков кандзи, «Результаты анализа соответствия и частота использования кандзи для использования при обработке административных данных». Обычный выбор кандзи» (行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果, Гёсей Дзёхо Шориё: Kihon Kanji Sentei no Tame no Kanji no Shiyō Hindo Oyobi Taiō Bunseki Kekka ) , или «Результаты анализа соответствия» (対応分析結果, Тайо Бунсэки Кекка ) для краткости.
Один из списков кандзи, составляющих «Результаты анализа корреспонденции», состоящий из 3044 символов. Его больше не существует. Первоначального списка не существовало для первоначального редакционного комитета; этот список кандзи был отражен в стандарте, который следует за «Результатами анализа соответствия».
Один из списков кандзи, составляющих «Результаты анализа корреспонденции», состоящий из 3251 символа. Это кандзи, используемые в списке всех административных топонимов, составленном Японским центром географических данных, «Список национальных административных округов» (国土行政区画総覧, Кокудо Гёсей Кукаку Сёран ) . Первоначальный редакционный комитет не расследовал сам список; кандзи, использованные из этого списка, следовали за «Результатами анализа соответствия».

Во втором и третьем стандартах к уровню 2 добавили четыре и два символа соответственно, в результате чего общее количество кандзи достигло 6355. Кроме того, во втором стандарте были изменены формы символов, а также перестановка между уровнями; в третьем стандарте также были изменены формы символов. Они описаны ниже.

Разделение уровней

2965 кандзи уровня 1 занимают строки с 16 по 47. 3390 кандзи уровня 2 занимают строки с 48 по 84.

Для уровня 1 были выбраны символы, общие для нескольких списков символов кандзи, используя в качестве основы кандзи тоё , исправленный вариант кандзи тоё и кандзи дзинмейё . Кроме того, были учтены JIS C 6260 («Идентификационный код То-До-Фу-Кен (префектура)»; в настоящее время JIS X 0401) и JIS C 6261 («Идентификационный код для городов, поселков и деревень»; в настоящее время JIS X 0402); кандзи почти всех японских префектур , городов, районов, округов, поселков, деревень и т. д. были намеренно помещены на уровень 1. [m] Кроме того, были добавлены поправки экспертов.

Уровень 2 был посвящен кандзи, которые фигурировали в четырех вышеупомянутых основных списках, но не были выбраны для уровня 1. Как отмечено ниже, кандзи уровня 1 были упорядочены по их произношению, поэтому среди кандзи, произношение которых было трудно определить, были такие, которые на этом основании были переведены с уровня 1 на уровень 2 (Нисимура, 1978).

Из-за этих решений, по большей части, уровень 1 содержит более часто используемые кандзи, а уровень 2 содержит более редко используемые кандзи, но, конечно, они оценивались по стандартам того времени; с течением времени некоторые кандзи уровня 2 стали использоваться более часто, например, один означает «парить» (), а другой означает «сверкать» (); и наоборот, некоторые кандзи уровня 1 стали редкими, особенно те, которые означают «сантиметр» () и «миллиметр» (). Из текущих кандзи дзёё 30 относятся к уровню 2, [n] , а три вообще отсутствуют (塡Result, 剝͠ и 頰͠). [o] Из текущих кандзи дзинмейё 192 относятся к уровню 2, [p] , а 105 не являются частью стандарта. [д]

Договоренность

Кандзи на уровне 1 сортируются в порядке «репрезентативного прочтения» каждого из них (т.е. канонического прочтения, выбранного только для целей настоящего стандарта); чтение кандзи для этого может быть чтением он или кун ; показания сортируются в порядке Годзюон . [r] Как правило, чтение «он» (по-китайски) считается репрезентативным чтением; Если кандзи имеет несколько значений , для репрезентативного чтения используется чтение, которое считается преобладающим в частоте использования (стандарт JIS C 6226-1978, раздел 3.4). Для небольшого процента кандзи, у которых либо нет чтения « он» , либо есть чтение « он» , которое мало известно и не широко используется, в качестве репрезентативного чтения использовалось чтение « кун ». Если в качестве репрезентативного чтения необходимо использовать чтение глагола кун , используется форма рэнъёкэй (а не сюсикэй ).

Например, ячейки с 1 по 41 в строке 16 содержат 41 символ, начиная с чтения . Внутри них 22 иероглифа, в том числе 16-10 (: при чтении « ки »; кун при чтении « аой ») и 16-32 (: при чтении « дзоку » и « шоку »; кун при чтении « ава »). на основе своих кун показаний. 16-09 (: при чтении « хо », кун при чтении « а(и) ») и 16-23 (: при чтении « со » и « кю », кун при чтении « ацука(и) ») — это всего лишь два примеры глаголов в форме рэнъёкей , используемых для репрезентативного чтения.

Если репрезентативное чтение одинаково для разных кандзи, кандзи, в котором используется чтение « он », помещается перед кандзи, в котором используется чтение «кун» . Если значения он или кун одинаковы для более чем одного кандзи, они затем упорядочиваются по их основному радикалу и количеству штрихов .

Будь то уровень 1 или уровень 2, итайдзи устроены так, чтобы напрямую следовать своей образцовой форме. Например, на уровне 2, сразу после строки 49, ячейки 88 (), следующие символы отклоняются от общего правила (в данном случае количества штрихов) и включают три варианта 49–88 (,и). [с]

Кандзи на уровне 2 расположены в порядке количества основных радикалов и штрихов. Если эти два свойства одинаковы для разных кандзи, они затем сортируются путем чтения.

Кандзи из неизвестных источников

Было отмечено, что в наборе кандзи есть кандзи, которых нет в полных полных словарях кандзи, и что их источники неизвестны. Например, всего через год после того, как был установлен первый стандарт, Тадзима (1979) сообщил, что он подтвердил 63 кандзи, которых не было ни в Синдзигене (большом словаре кандзи, опубликованном Кадокава Сётэн ), ни в Дай Кан-Ва дзитэн. , и они не имели никакого смысла как рякудзи ; он отметил, что было бы предпочтительнее, чтобы кандзи, отсутствующие в словарях кандзи, были выбраны из определенных источников. Эти кандзи стали известны как «призрачные» символы (幽霊文字, yūrei moji ) или «призрачные кандзи» (幽霊漢字, yūrei кандзи ) , а также другие имена.

Редакционный комитет четвертой версии стандарта также увидел проблему в существовании кандзи с неизвестными источниками и поэтому провел расследование, на какие именно источники ссылался редакционный комитет первой версии. В результате выяснилось, что первоначальный редакционный комитет в значительной степени полагался на «результаты анализа корреспонденции» для сбора кандзи. Когда редакционный комитет исследовал «Результаты анализа соответствия», стало ясно, что многие кандзи, включенные в набор кандзи, но не найденные в исчерпывающих словарях кандзи, предположительно произошли из «Кандзи японского регистрационного имени личности» и «Кандзи для национального административного округа». Листинг», упомянутые в «Результатах анализа корреспонденции».

Было подтверждено, что оригинального текста «Японского регистрационного имени кандзи», упомянутого в «Результатах анализа соответствия», не существует. Для «Списка национальных административных округов» Сасахара Хироюки из редакционного комитета четвертой версии изучил кандзи, появившиеся на страницах незавершенной разработки первого стандарта. Комитет также ознакомился со многими древними писаниями, а также со многими примерами личных имен в базе данных телефонных книг NTT .

Благодаря этому тщательному расследованию комитету удалось сократить количество кандзи, источник которых невозможно с уверенностью объяснить, до двенадцати, показанных в соседней таблице. Предполагается, что из них несколько символов возникли из-за ошибок копирования. В частности, 妛, вероятно, возник, когда принтеры пытались создать 𡚴, вырезая и склеивая 山 и 女 вместе. Тень от этого процесса была ошибочно интерпретирована как линия, в результате чего получилось 妛 (изображение этого можно найти в кандзи Дзёё дзитэн ).

Унификация вариантов кандзи

Согласно спецификациям четвертого стандарта (1997 г.), унификация (包摂, хосетсу , не тот же термин, который используется для « унификации » Юникода , хотя это почти та же концепция) — это действие по присвоению символу одной и той же кодовой точки. безотносительно к различным формам его характера. В четвертом стандарте разрешенное количество символов ограничено; четко определена степень, в которой отдельные аллографические глифы объединены в графемный код.

Более того, согласно спецификациям стандарта, глиф (字体, дзитай , букв. «тело символа»;) представляет собой абстрактное понятие графического представления графического символа; форма символа (字形, дзикей , букв. «форма символа»; в некотором смысле также «глиф», но дифференцированная на другом уровне в целях стандартизации) — это представление в виде графической формы, которую глиф принимает в действительности (например, из-за к глифу, написанному от руки, напечатанному, отображенному на экране и т. д.). Для одного глифа существует бесконечный диапазон возможных конкретно и/или визуально различных форм символов. Вариация формы одного глифа называется «разницей в дизайне» (デザインの差, dezain no sa ) .

Степень, в которой глиф унифицирован с одной кодовой точкой, определяется в соответствии с «примером глифа» этой кодовой точки (例示字体, рейджи джитай ) и «критериями унификации» (包摂規準, хосетсу киджун ) , которые можно применить к этому примеру. глиф; то есть пример глифа для кодовой точки применяется к этой кодовой точке, и любые глифы, для которых части, составляющие пример глифа, заменены в соответствии с критериями унификации, также применяются к этой кодовой точке.

Например, пример глифа 33–46 () состоит из радикала 9 () и кандзи, который в конечном итоге породил со кана (). Кроме того, в критерии объединения 101 отображаются три кандзи: первый принимает форму, наиболее часто встречающуюся в японском языке (); второй содержит более традиционную форму (), в которой первые две черты образуют радикал 12 (кандзи-цифра 8:); а третий подобен второму, за исключением того, что радикал 12 перевернут (). Следовательно, все три перестановки (,,) применимы к кодовой точке в строке 33, ячейке 46.

В четвертом стандарте, включая одну из опечаток для первого издания, имеется 186 критериев унификации.

Если пример глифа кодовой точки состоит из более чем одной части глифа, критерии унификации могут быть применены к каждой части. После того, как критерий унификации применен к одной части глифа, к этой части больше не могут быть применены критерии унификации. Кроме того, критерий унификации не может применяться, если полученный глиф полностью совпадет с глифом другой кодовой точки.

Пример глифа — это не более чем пример этой кодовой точки; это не глиф, «одобренный» стандартом. Кроме того, критерии унификации необходимо использовать только для общеупотребительных кандзи и с целью присвоения вещам кодовых точек этого стандарта. Стандартные требования не создавать обычно неиспользуемые кандзи на основе примеров глифов и критериев унификации.

Кандзи набора кандзи выбраны не совсем последовательно по критериям унификации. Например, хотя 41-7 соответствует форме, в которой третья и четвертая черточки пересекаются (), а также форме, где они не пересекаются () согласно критерию объединения 72, 20-73 соответствует только форме, где они не пересекаются (彥). не пересекать (), а 80-90 соответствует только форме, в которой они пересекаются ().

Термины «унификация», «критерии унификации» и «пример глифа» были приняты в четвертом стандарте. С первой по третью версию кандзи и отношения между кандзи были сгруппированы в три типа: «независимые» (独立, докурицу ) , «совместимые» (対応, тайо ) , и «эквивалентные» (同値, дочи ) ; было объяснено, что символы, признанные эквивалентными, «объединяются в одну точку». В «эквивалентность» включены кандзи, за исключением кандзи абсолютно одинаковой формы, кандзи с различиями в стиле, а также кандзи, в которых разница в форме символов невелика.

В первом стандарте оговаривалось, что «настоящий стандарт... не устанавливает особенностей форм символов» (раздел 3.1); в нем также говорится, что «цель этого стандарта состоит в том, чтобы установить общее представление о символах и их кодах; дизайн форм их символов и тому подобное выходит за рамки его компетенции». Во втором и третьем стандартах также имеются замечания о том, что конкретные конструкции форм знаков выходят за рамки его применения (примечание к п. 1). Четвертый стандарт также предусматривает, что «Настоящий стандарт регулирует графические символы, а также их битовые комбинации, а использование, конкретные конструкции отдельных символов и т. д. не входят в сферу применения настоящего стандарта» (JIS X 0208:1997, пункт 1). ).

Критерии унификации совместимости

В четвертом стандарте определены «критерии унификации для обеспечения совместимости с предыдущими стандартами» (過去の規格との互換性を維持するための包摂規準, kako no kikaku to no gokansei wo iji suru tame no hōsetsu kijun ) . Их применение ограничено 29 кодовыми точками, символы которых сильно различаются в зависимости от стандартов JIS C 6226-1983 и последующих версий и JIS C 6226-1978. Для этих 29 кодовых точек глифы из JIS C 6226-1983 и далее отображаются как «A», а глифы из JIS C 6226-1978 как «B». На каждом из них могут быть нанесены глифы как «А», так и «Б». Однако, чтобы заявить о совместимости со стандартом, необходимо явно указать, использовалась ли форма «A» или «B» для каждой кодовой точки.

Кодировки символов

Схемы кодирования, предусмотренные JIS X 0208.

В JIS X 0208:1997 статья 7 в сочетании с приложениями 1 и 2 определяет в общей сложности восемь схем кодирования.

В приведенных ниже описаниях области «CL» (элемент управления слева), «GL» (график слева), «CR» (элемент управления справа) и «GR» (график справа) соответственно в обозначении столбца/строки от 0. с /0 по 1/15, с 2/1 по 7/14, с 8/0 по 9/15 и с 1/10 по 15/14. Каждому коду 2/0 присвоен графический символ «ПРОБЕЛ», а 7/15 – управляющий символ «УДАЛЕНИЕ». Управляющие символы C0 (определенные в JIS X 0211 и соответствующие ISO/IEC 6429 ) назначены региону CL.

7-битная кодировка кандзи
Предусмотрено в самом стандарте. Двухбайтовый набор JIS X 0208 назначен региону GL.
8-битная кодировка кандзи
Предусмотрено в самом стандарте. То же, что и 7-битное кодирование, но определяется в виде 8-битных байтов. Область CR может не использоваться или кодировать управляющие символы C1 из JIS X 0211. Область GR не используется.
Международная справочная версия + 7-битная кодировка кандзи
Предусмотрено в самом стандарте. Сдвиг управляющего символа обозначает ISO/IEC 646 :1991 IRV (международную справочную версию, эквивалентную US-ASCII ) в регион GL. Выходной сдвиг обозначает двухбайтовый набор JIS X 0208 в том же регионе.
Латинские символы + 7-битная кодировка кандзи
Предусмотрено в самом стандарте. Как и в случае с IRV+7-бит, но в ISO/IEC 646:IRV заменен на ISO/IEC 646:JP (римский набор JIS X 0201 ).
Международная справочная версия + 8-битная кодировка кандзи
Предусмотрено в самом стандарте. ISO/IEC 646:IRV присвоен региону GL, JIS X 0208 — региону GR. По сути, это подмножество EUC-JP , за исключением катаканы половинной ширины из JIS X 0201 и дополнительных кандзи из JIS X 0212 .
Латинские символы + 8-битная кодировка кандзи
Предусмотрено в самом стандарте. Как и в случае с IRV+8-бит, но ISO/IEC 646:IRV заменен на ISO/IEC 646:JP.
Набор символов со сдвигом
Условлено в Приложении 1: «Представление с кодировкой сдвига» (シフト符号化表現, Шифуто Фугока Хёгэн ) . Авторитетное определение Shift JIS .
Набор символов в кодировке RFC 1468
Условлено в Приложении 2: «Представление в коде RFC 1468» ( RFC 1468符号化表現, RFC 1468 Fugōka Hyōgen ) . Напоминает ISO-2022-JP (который официально определен в RFC 1468), но определяется в виде восьмибитных байтов, тогда как ISO-2022-JP определяется в виде семибитных байтов.

Среди кодировок, предусмотренных четвертым стандартом, только набор кодированных символов «Shift» зарегистрирован IANA . [11] Однако некоторые другие тесно связаны с кодировками, зарегистрированными в IANA и определенными в других местах (EUC-JP и ISO-2022-JP).

Escape-последовательности для JIS X 0202/ISO 2022

JIS X 0208 может использоваться в составе ISO 2022 /JIS X 0202 (подмножеством которого является ISO-2022-JP). Escape- последовательности для обозначения JIS X 0208 для каждого из четырех наборов кодов ISO 2022 перечислены ниже. Здесь «ESC» относится к управляющему символу « Escape » (0x1B или 1/11).

Escape-последовательность, начинающаяся с ESC 2/4, выбирает многобайтовый набор символов. Escape-последовательность, начинающаяся с ESC 2/6, указывает пересмотр предстоящего выбора набора символов. JIS C 6226:1978 идентифицируется байтом идентификатора с многобайтовым набором 94 4/0 (соответствует ASCII @). JIS C 6226:1983/JIS X 0208:1983 идентифицируется байтом идентификатора с многобайтовым набором 94 4/2 ( B). JIS X 0208:1990 также идентифицируется 94-значным байтом идентификатора 4/2, но его можно отличить по идентификатору версии 4/0 ( @).

Дублирующиеся кодировки ASCII и JIS X 0201.

При использовании набора кандзи этого стандарта либо с набором графических символов ISO/IEC 646:1991 IRV ( ASCII ), либо с набором графических символов JIS X 0201 для латинских символов ( JIS-Roman ), обработка символов, общих для обоих наборов, становится проблематично. Если не принять специальных мер, символы, включенные в оба набора, не все сопоставляются друг с другом однозначно, и одному символу может быть присвоено более одной кодовой точки; то есть это может привести к дублированию кодировки.

JIS X 0208:1997, когда символ является общим для обоих наборов, по сути запрещает использование кодовой точки в наборе кандзи (который является одной из двух кодовых точек), исключая дублирование кодировок. Принято считать, что персонажи с одинаковым именем являются одним и тем же персонажем.

Например, и имя символа, соответствующего битовому шаблону 4/1 в ASCII, и имя символа, соответствующего ячейке 33 строки 3 набора кандзи, — это «ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A». В Международной справочной версии + 8-битный код для кандзи, будь то битовая комбинация 4/1 или битовая комбинация, соответствующая ячейке 33 строки 3 набора кандзи (10/3 12/1), буква « A » (т.е. «ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА А»). Стандарт запрещает использование битового шаблона «10/3 12/1» в попытке устранить дублирующую кодировку.

Принимая во внимание реализации, которые рассматривают символы кодовых точек в наборе кандзи как « полноширинные символы », а символы ASCII или JIS-Roman как разные символы, использование кодовых точек набора кандзи разрешено только ради обратная совместимость. Например, в целях обратной совместимости разрешено считать 10/3 12/1 в международной эталонной версии + 8-битный код для кандзи соответствующим полноширинному «A».

Если набор кандзи используется вместе с ASCII или JIS-Roman, то даже при строгом соблюдении стандарта уникальность кодировки символа не гарантируется. Например, в Международной справочной версии + 8-битный код для кандзи допустимо представлять дефис с битовой комбинацией 2/13 для символа «ДЕФИС-МИНУС», а также с строкой 1 набора кандзи, ячейкой 30. (битовый шаблон 10/1 11/14) для символа «ДЕФИС». Кроме того, стандарт не определяет, какой из двух для чего использовать, поэтому дефису не присваивается одна уникальная кодировка. Та же проблема касается знака минус , кавычек и так далее.

Более того, даже если набор кандзи используется как отдельный код, нет никакой гарантии, что будет реализована уникальная кодировка символов. Однако во многих случаях « ИДЕОГРАФИЧЕСКОЕ ПРОСТРАНСТВО » полной ширины в строке 1, ячейке 1 и пространство половинной ширины (2/0) сосуществуют. Чем эти два понятия должны отличаться, неочевидно и не указано в стандарте.

Сравнение схем кодирования, используемых на практике

  1. ^ т.е. не требует 8-битной чистой передачи.
  2. ^ т.е. последовательность, используемая для кодирования данного символа, всегда одинакова, независимо от того, какими были предыдущие символы. См. состояние (информатика) .
  3. ^ ab ISO-2022-JP — это кодировка с отслеживанием состояния : все кодировки кодируются с помощью 0x21–7E и переключаются между ними с помощью escape-символов ANSI. Следовательно, хотя в исходном состоянии это ASCII, целые последовательности символов, отличных от ASCII, могут быть закодированы байтами ASCII.
  4. ^ Катакана JIS X 0201 доступна в JIS X 0202 и ISO 2022, но не включена в базовый профиль ISO-2022-JP, хотя они являются общим расширением.
  5. ^ JIS X 0212 доступен в JIS X 0202 и ISO 2022 и включен в профили ISO-2022-JP-1 и ISO-2022-JP-2, но не в базовый профиль ISO-2022-JP.
  6. ^ Однобайтовые символы 0x21–7E в Shift_JIS правильно представляют собой ISO-646-JP , чтобы быть расширенным набором 8-битного JIS X 0201, но часто декодируются (не обязательно отображаются) как ASCII, который отличается только в двух местах.
  7. ^ Некоторые (не все) байты ASCII могут отображаться как вторые, но не первые байты двухбайтовых символов в Shift_JIS. Следовательно, в последовательности из двух или более байтов ASCII второй байт и далее обязательно являются символами ASCII (или ISO-646-JP).
  8. ^ ab EUC упакованного формата основан на механизмах ISO 2022 с заранее заданными обозначениями кодировок. Избегаются экранирование обозначения кодировки и блокирующие сдвиги, тогда как использование одиночных сдвигов может быть реализовано без сохранения состояния. Тем не менее, ограничения ISO 2022 соблюдаются.
  9. ^ Однобайтовые символы 0x21–7E в EUC-JP обычно считаются ASCII, но иногда рассматриваются как ISO-646-JP .
  10. ^ В отличие от Shift_JIS, EUC-JP не будет обрабатывать простой 8-битный ввод JIS X 0201 без предварительного преобразования из-за другого представления катаканы JIS X 0201 (с одиночными сдвигами).
  11. ^ JIS X 0212 в EUC-JP не всегда реализуется.
  12. ^ Помимо свойств самих кодировок, форматы Unicode имеют дополнительные преимущества, вытекающие из базового набора символов: они не ограничиваются символами в кодировке JIS, но могут представлять всю UCS (включая полный набор символов в кодировке JIS) и, следовательно, подходит для международного использования. На них также меньше влияют конфликтующие проприетарные расширения из-за их большего базового репертуара и выделенных областей частного использования.
  13. ^ Большинство побитовых сдвигов кадров текста в кодировке UTF-8 приводят к созданию недействительного UTF-8, но можно создавать последовательности символов, которые остаются действительными UTF-8 даже при сдвиге кадров на один или несколько битов.
  14. ^ Только Microsoft.
  15. ^ Хотя GB 18030 и GBK являются расширениями формы EUC-CN GB/T 2312, они не соответствуют ограничениям EUC или ISO 2022, в отличие от EUC-JP (или исходного EUC-CN).
  16. ^ Хотя теоретически UTF-32 самосинхронизируется только по 32-битным dwordм, использование 32-битного значения для представления 21-битного значения означает, что на практике UTF-32 содержит непрерывный цикл не менее 11 нулевых битов в верхнем конце каждого символа, которые обычно можно использовать для выравнивания по границам символов, в зависимости от задействованных кодовых точек.

История

До тех пор, пока не пройдет пять лет после того, как японский промышленный стандарт был установлен, подтвержден или пересмотрен, предыдущий стандарт подвергается процессу повторного подтверждения, пересмотра или отмены. С момента создания стандарт подвергался пересмотру трижды, и в настоящее время действует четвертый стандарт.

Первый стандарт

Первым стандартом является JIS C 6226-1978 «Код набора японских графических символов для обмена информацией» (情報交換用漢字符号系, Jōhō Kōkan’yō Kanji Fugōkei ) , установленный министром международной торговли и промышленности Японии 1 января 1978 года. Сокращенно его еще называют 78JIS . По поручению Агентства промышленных наук и технологий комитет по исследованиям и исследованиям стандартизации кодов кандзи JIPDEC подготовил проект. Председателем комитета был Моригучи Сигейчи.

Код включал 453 некандзи (включая хирагану, катакану, римский, греческий и кириллический алфавит и знаки препинания) и 6349 кандзи (2965 кандзи уровня 1 и 3384 кандзи уровня 2), всего 6802 символа. [12] В него еще не входили символы, рисующие рамки . Сам стандарт был установлен в шрифте Ishii Mincho компании Shaken Co., Ltd.

Второй стандарт

Второй стандарт JIS C 6226-1983 «Код набора японских графических символов для обмена информацией» (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) пересматривал первый стандарт 1 сентября 1983 года. Он также называется 83JIS . По поручению AIST комитет JIPDEC, связанный с кодом кандзи, подготовил проект. Председателем комитета был Мотоока Туру.

Проект второго стандарта был основан на рассмотрении таких факторов, как обнародование кандзи дзёё , введение в действие кандзи дзинмейё и стандартизация телетекса на японском языке Министерством почты и телекоммуникаций ; Кроме того, следующая модификация была выполнена, чтобы идти в ногу со стандартом JIS C 6234-1983 (24-пиксельные формы символов матричного принтера; в настоящее время JIS X 9052).

Добавление специальных символов
К специальным символам добавлено 39 символов. Среди этих 39, согласно рекомендациям JICST и таким стандартам, как JIS Z 8201-1981 (математические символы) и JIS Z 8202-1982 (количество, единица измерения и химические символы), были выбраны вещи, которые не могут быть представлены составом.
Недавно добавленные персонажи, рисующие коробки.
Добавлено 32 персонажа, рисующих коробки .
Замена кодовых точек itaiji
Кодовые точки для 22 пар вариантов кандзи были заменены, так что вариант с уровня 2 был перенесен на уровень 1 и наоборот. [12] [13] Например, (уровень 1) строка 36, ячейка 59 в первом стандарте () была перемещена в строку 52, ячейка 68 (уровень 2); точка, первоначально находившаяся в строке 52, ячейке 68 (), в свою очередь, была перенесена в строку 36, ячейку 59.
Дополнения к кандзи 2 уровня
Трем символам уровня 1 и одному символу уровня 2 были присвоены новые кодовые точки в ранее неназначенных кодовых точках в строке 84 как кандзи уровня 2. Итайдзи для каждой из этих кодовых точек были заново назначены на свои исходные места. [14] Например, ячейка 1 строки 84 во втором стандарте () была перенесена туда, чтобы разместить другую форму, не включенную в ячейку 38 строки 22, в качестве кандзи уровня 1 ().
Модификация форм персонажей
Были изменены формы символов примерно 300 кандзи. [15]

Среди изменений в этих 300 или около того формах символов кандзи многие глифы уровня 1, которые были в стиле Словаря Канси, были изменены на варианты, и особенно на более упрощенные формы (например, рякудзи и расширенный синдзитай ). Например, пара элементов кода, которые часто являются предметом критики из-за значительных изменений, — это ячейка 10 строки 18 (78JIS:, 83JIS:) и ячейка 34 строки 38 (78JIS:, 83JIS:).

По сравнению с вариантами в стиле Канси было много мелких изменений; например, строка 25, ячейка 84 () потеряла часть штриха. Кроме того, там, где некоторые символы для кандзи уровня 1 не были формами в стиле Канси, некоторые были изменены на формы в стиле Канси; например, ячейка 49 строки 80 () получила часть штриха (т. е. ту же часть штриха, которую потеряли 25–84).

Чтобы прояснить первоначальную цель первого стандарта, они в конечном итоге попали в параметры критериев унификации в четвертом стандарте. Разница в форме для отмеченных выше примеров («» и «») подпадает под параметры критерия унификации 42 (относительно компонента «»). [т]

Основная часть изменений в формах символов — это различия между кандзи уровня 1 и уровня 2. В частности, упрощение делалось чаще для кандзи уровня 1, чем для кандзи уровня 2; упрощения, примененные к кандзи уровня 1 (например, от «» до «» и от «» до «»), как правило, не применялись к кандзи уровня 2 («» остался как есть). Вышеупомянутые 25-84 () и 80-49 () также подвергались разному обращению, поскольку первый находится на уровне 1, а второй - на уровне 2. Несмотря на это, произошли некоторые изменения независимо от уровня; например, символы, содержащие компоненты «дверь» () и «зима» (), были изменены без каких-либо различий между кандзи уровня 1 и уровня 2.

Однако для 29 кодовых точек (таких как проблемные 18-10 и 38-34, упомянутые выше) формы, унаследованные четвертым стандартом, противоречат первоначальному замыслу первого. Для них существуют специальные критерии унификации для обеспечения совместимости с предыдущими стандартами в этих кодовых точках.

Когда была введена новая категория «X» для японских промышленных стандартов (для областей, связанных с информацией), 1 марта 1987 года второй стандарт был переименован в JIS X 0208-1983 [12] .

Третий стандарт

Третий стандарт JIS X 0208-1990 «Код набора японских графических символов для обмена информацией» (情報交換用漢字符号, Jōhō Kōkan'yō Kanji Fugō ) пересматривал второй стандарт 1 сентября 1990 года. Для краткости он также называется 90JIS . По поручению AIST комитет Японской ассоциации стандартов по пересмотру JIS X 0208 создал проект. Председателем комитета был Тадзима Кадзуо.

Было изменено 225 символов кандзи, а на уровень 2 добавлены два символа (84-05 «» и 84-06 «»). Это было разъединение итайдзи для двух уже включенных символов (49–59 «» и 63–70 «»). Некоторые изменения и два дополнения соответствовали 118 кандзи дзинмейё , добавленным в марте 1990 года. [12] Сам стандарт был установлен в Хэйсэй Минчо.

Четвертый стандарт

Четвертый стандарт JIS X 0208:1997 «7-битные и 8-битные наборы кандзи с двухбайтовой кодировкой для обмена информацией» ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto Ойоби Хати-Битто нет Ni-Baito Jōhō Kōkan’yō Fugōka Kanji Shugo ) пересмотрел третий стандарт 20 января 1997 года. Для краткости его также называют 97JIS . По поручению AIST комитет JSA по исследованию и изучению наборов кодированных символов подготовил проект. Председателем комитета был Сибано Кодзи.

Основная политика этой версии заключалась в том, чтобы не вносить изменений в набор символов, прояснить неоднозначные положения и сделать стандарт относительно простым в использовании. Добавление, удаление и перестановка кодовых точек не производились, и все без исключения глифы в качестве примера также остались неизменными. Однако положения стандарта были полностью переписаны и/или дополнены. Если третий стандарт без пояснений имел объем 65 страниц, то четвертый стандарт без пояснений составлял 374 страницы.

Основными моментами доработки являются:

Определение методов кодирования
До третьего стандарта был определен только метод кодирования, основанный на расширении кода JIS X 0202. Это что-то необычное с точки зрения кодированных наборов символов. В четвертом стандарте были определены методы кодирования, не использующие escape-последовательности с целью расширения кода.
Определение общего запрета на использование неназначенных кодовых точек и методов использования неназначенных кодовых точек.
Третий стандарт, в объяснении, которое не было частью стандарта, описывал вещи так, как если бы были места, где для некоторых неназначенных кодовых точек было приемлемо назначить гайджи. В четвертом стандарте было разъяснено, что использование неназначенных кодовых точек обычно запрещено. Также были уточнены условия использования неназначенных кодовых точек.
Общее устранение повторяющихся кодировок
Каждому персонажу было присвоено «имя персонажа», соответствующее именам других стандартов. Кроме того, были указаны методы кодирования для их использования вместе с международной эталонной версией ISO/IEC 646 или JIS X 0201. Когда JIS X 0208 используется вместе с любым из двух назначенных кодовых точек для символов с одинаковым именем, разрешен только один; таким образом, дублирующиеся кодировки в целом устранялись.
Исследование источников кандзи
Символы, включенные в стандарт на данный момент и не встречающиеся ни в словаре Канси , ни в Дай Канва Дзитен, не были идентифицированы. Соответственно, было исследовано, с какой именно целью включения и из каких источников эти кандзи пришли при составлении первого стандарта.
Определение критериев объединения кандзи
На основе таких вещей, как материалы для разработки первого стандарта, была предпринята попытка восстановить цель первого стандарта в отношении объема глифов, которые представляет каждая кодовая точка. Более того, были четко определены критерии объединения глифов кандзи.
Включение стандартов де-факто
Ко времени появления четвертого стандарта методы кодирования Shift JIS и ISO-2022-JP стали де-факто стандартами для персональных компьютеров и электронной почты соответственно. Эти методы кодирования были включены как «Представление с кодировкой сдвига» и «Представление с кодировкой RFC 1468» (описанное выше).

Преемники

JIS X 0213 (расширенный кандзи) был разработан «с целью предложить достаточный набор символов для кодирования современного японского языка, которым JIS X 0208 задумывался с самого начала»; [16] он определяет набор символов, который расширяет набор кандзи JIS X 0208. Разработчики JIS X 0213 рекомендуют переход с JIS X 0208 на JIS X 0213, среди преимуществ которого является совместимость JIS X 0213 со списком глифов Hyōgai Kanji. и с новыми кандзи дзинмейё .

Вопреки ожиданиям разработчиков, принятие JIS X 0213 было далеко не быстрым с момента его принятия в 2000 году. Редакционный комитет JIS X 0213:2004 написал (в 2004 году): Большинство информационных систем могут совместно использовать только JIS X 0208», и это продолжается до сих пор». (JIS X 0213:2000, Приложение 1:2004, раздел 2.9.7)

Для Microsoft Windows , преобладающей операционной системы (и, следовательно, обеспечивающей преобладающую среду рабочего стола ) в секторе персональных компьютеров, репертуар JIS X 0213 был включен начиная с Windows Vista , выпущенной в ноябре 2006 года. Mac OS X совместима с JIS X 0213. начиная с версии 10.1 (выпущенной в 2001 г.). Многие Unix-подобные системы, такие как Linux, при желании могут (опционально) поддерживать JIS X 0213. Поэтому считается, что со временем поддержка JIS X 0213 на персональных компьютерах не станет препятствием для его возможного внедрения.

Среди разработчиков JIS X 0213 есть те, кто ожидает увидеть смесь JIS X 0208 и JIS X 0213 до принятия JIS X 0213 (Satō, 2004). Однако JIS X 0208 продолжает использоваться в настоящее время, и многие прогнозируют, что он останется стандартом. Существуют препятствия, которые необходимо преодолеть, чтобы JIS X 0213 заменил стандарт JIS X 0208 в обычном использовании:

Реализации

Поскольку JIS X 0208/JIS C 6226 — это прежде всего набор символов , а не строго определенная кодировка символов , несколько компаний внедрили свои собственные кодировки набора символов.

Некоторые из них включают назначения символов, специфичные для конкретного поставщика, вместо нераспределенных областей стандарта. К ним относятся Windows-932 и MacJapanese , а также кодировка символов NEC PC98 . Хотя IBM-932 и IBM-942 также включают назначения поставщиков, они включают их за пределы региона, используемого для JIS X 0208.

Связь с другими стандартами

ISO/IEC 646 IRV и ASCII

Как отмечалось выше, набор кандзи не совместим с набором графических символов ISO/IEC 646:1991 IRV (ASCII). Набор кандзи и набор графических символов IRV можно использовать вместе, как указано в JIS X 0208 (IRV + 7-битный код для кандзи и IRV + 8-битный код для кандзи). Их также можно использовать вместе в EUC-JP .

ДЖИС Х 0201

В наборе кандзи отсутствуют три символа, включенные в графический набор латинских символов JIS X 0201 : 2/2 (КАВЫЧКИ), 2/7 (АПОСТРОФ) и 2/13 (ДЕФИС-МИНУС). Набор кандзи содержит все символы, включенные в набор графических символов катаканы JIS X 0201.

Набор кандзи и набор графических символов для латинских символов можно использовать вместе, как указано в JIS X 0208 (латинские символы + 7-битный код для кандзи и латинские символы + 8-битный код для кандзи). Набор кандзи, набор графических символов для латинских символов и набор графических символов JIS X 0201 для катаканы могут использоваться вместе, как указано в JIS X 0208 (набор символов с кодировкой сдвига; т. е. Shift JIS ). Набор кандзи и набор графических символов катаканы можно использовать вместе в EUC-JP .

ДЖИС Х 0212

JIS X 0212 (дополнительные кандзи) определяет дополнительные символы с кодовыми точками для целей обработки информации, для которой требуются символы, отсутствующие в JIS X 0208. Вместо выделения символов в основном наборе кандзи JIS X 0208 он определяет второй 94-битный набор кандзи. Набор из 94 кандзи, содержащих дополнительные символы.

JIS X 0212 можно использовать с JIS X 0208 в EUC-JP . Кроме того, JIS X 0208 и JIS X 0212 являются исходными стандартами для унификации Han UCS/Unicode , что означает, что кандзи из обоих наборов могут быть включены в один документ формата Unicode.

Среди кодовых точек, измененных во второй версии JIS X 0208, 28 кодовых точек в JIS X 0212 отражают формы символов, существовавшие до изменений. [17] Кроме того, JIS X 0212 переназначает « знак закрытия », который JIS X 0208 назначил как не-кандзи ( , в строке 1, ячейка 26), на кандзи (, в строке 16, ячейка 17). JIS X 0212 не имеет общих символов с JIS X 0208, кроме этих. Следовательно, он не подходит для общего использования сам по себе.

Однако в четвертой версии JIS X 0208 связь с JIS X 0212 вообще не определялась. Считается, что это произошло потому, что редакционный комитет четвертого стандарта JIS X 0208 имел критическое мнение о методах выбора и идентификации JIS X 0212. [18] Значения символов и обоснования выбора не были должным образом задокументированы, что затрудняло определить, соответствуют ли желаемые кандзи тем, что есть в его репертуаре. [19] В тексте четвертого стандарта, а также указываются проблемные моменты выбора символов JIS X 0212, говорится, что «считается, что не только выбор символов невозможен, но и невозможно использовать их вместе; подключение к JIS X 0212 вообще не определено». (раздел 3.3.1)

ДЖИС Х 0213

Диаграмма Эйлера , сравнивающая репертуары JIS X 0208, JIS X 0212 , JIS X 0213 , Windows-31J , стандартного репертуара Microsoft и Unicode .

JIS X 0213 (расширение кандзи) определяет набор кандзи, который расширяет набор кандзи JIS X 0208. Согласно этому стандарту, он «разработан с целью предложить достаточный набор символов для кодирования современного японского языка». таким, каким JIS X 0208 задумывался с самого начала». [16]

Набор кандзи JIS X 0213 включает в себя все символы, которые могут быть представлены в наборе кандзи JIS X 0208, со многими дополнениями. В общей сложности JIS X 0213 определяет 1183 не-кандзи и 10 050 кандзи (всего 11 233 символа) в двух плоскостях размером 94 на 94 (, мужчины ) . Первая плоскость (не кандзи и кандзи уровня 1–3) основана на JIS X 0208, тогда как вторая плоскость (кандзи уровня 4) предназначена для размещения в нераспределенных строках JIS X 0212, что позволяет использовать ее в EUC-JP . [20] JIS X 0213 также определяет Shift_JISx0213 , вариант Shift_JIS, способный кодировать весь JIS X 0213.

В большинстве случаев плоскость 1 JIS X 0213 является надмножеством JIS X 0208. Однако к некоторым кодовым точкам в JIS X 0213 применяются другие критерии унификации по сравнению с JIS X 0208. Следовательно, некоторые пары глифов кандзи, которые были представлены на одну кодовую точку JIS X 0208, поскольку они унифицированы, в JIS X 0213 присваиваются отдельные кодовые точки. Например, глиф в строке 33, ячейке 46 JIS X 0208 («», описанный выше) объединяет несколько вариантов из-за к его правой составляющей. В JIS X 0213 две формы (содержащие компонент «») объединены в плоскости 1, строка 33, ячейка 46, а другая (содержащая компонент «») расположена в плоскости 1, строка 14, ячейка 41. Следовательно, не может быть определено автоматически, следует ли JIS X 0208, строка 33, ячейка 46, сопоставляться с JIS X 0213, плоскость 1, строка 33, ячейка 46 или плоскость 1, строка 14, ячейка 41. [u] Это ограничивает степень, в которой JIS X 0213 может считаться совместимым с JIS X 0208, как это признано редакционным комитетом JIS X 0213. [21]

Однако по большей части строка m ячейки n в JIS X 0208 соответствует строке m ячейки n плоскости 1 в JIS X 0213; поэтому на практике особой путаницы не возникает. Это связано с тем, что в большинстве шрифтов используются глифы, представленные в JIS X 0208, и большинство пользователей не осознают критериев унификации.

ISO/IEC 10646 и Юникод

Набор кандзи JIS X 0208 входит в число исходных стандартов унификации Хань в ISO/IEC 10646 (UCS) и Unicode . Каждому кандзи в JIS X 0208 соответствует своя кодовая точка в базовой многоязычной плоскости (BMP) UCS/Unicode.

Не-кандзи в JIS X 0208 также соответствуют собственным кодовым точкам в BMP. Однако для некоторых специальных символов некоторые системы реализуют соответствия, отличные от соответствий UCS/Unicode (которые основаны на именах символов, указанных в JIS X 0208:1997).

Сноски

пояснительная

  1. ^ Отсутствуют греческие диакритические знаки и последняя сигма .
  2. ^ abcd (снято)
  3. ^ JIS и Apple: U+2014.
    Unicode, [b] Microsoft и WHATWG: U+2015.
  4. ^ Microsoft и WHATWG: U+FF5E.
    Юникод, [b] JIS и Apple: U+301C.
  5. ^ Microsoft и WHATWG: U+2225.
    Unicode, [b] JIS и Apple: U+2016.
  6. ^ Microsoft: U+FF0D.
    Юникод, [b] JIS и Apple: U+2212.
    WHATWG: U+FF0D при декодировании, в исключительных случаях оба при кодировании.
  7. ^ abcd Добавлено в JIS X 0213.
  8. ^ Отсутствует в оригинальной версии расширения, предшествовавшей эпохе Хэйсэй . Позиция кода, выбранная NEC или Microsoft. [5] Не в Macintosh PostScript.
  9. ^ abcdefghi Дублировано дополнениями, внесенными в строку 2 в 1983 году. Не закодировано здесь (но оставлено нераспределенным) в JIS X 0213, [5] , но дублировано закодировано здесь Microsoft и WHATWG. Что касается кодировки Macintosh PostScript, к форме, декодированной с помощью функций библиотеки macOS , добавляется код частного использования U+F87F, чтобы обеспечить возможность двустороннего обмена.
  10. ^ Как показано в кодовых таблицах, зарегистрированных в Международном реестре наборов кодированных символов для использования с управляющими последовательностями, до четвертого стандарта (1997 г.) ку () и десять () назывались «разделом» и «позицией». "соответственно на английском языке. Что касается изменений в английском языке, то в стандарте JIS X 0221-1995 (UCS), который перевел ISO/IEC 10646-1:1993, «группа», «плоскость», «ряд» и «ячейка» могут можно перевести на оружие () , мужчины () , ку () и десять () . Однако строка и ячейка JIS X 0208 и строка и ячейка ПСК представляют собой разные идеи.
  11. ^ Имена персонажей даются латинскими буквами и используются во всем мире, поэтому их можно считать международным соглашением, чем-то вроде научных названий живых организмов. Что касается этой аналогии, общепринятые японские имена персонажей подобны общим названиям организмов.
  12. ^ Для полнофункционального поиска или сортировки в порядке кана необходимо учитывать прочтение слов, знаки повторения и т. д. Сортировка строк японских символов описана в JIS X 4061 (Сопоставление строк японских символов).
  13. ^ По словам Ясуоки (2001a), похоже, были какие-то случайные оплошности. Он отмечает, например, что ба (, 58-57) Инбы и ши (, 61-89) Шисуи , Кумамото не являются частью уровня 1.
  14. Список Футбольный матч футуристические футуристические новости
  15. ^ Кандзи дзёё 𠮟Result включен только в официальный вариант 叱.
  16. Список Футбольный клуб «футбол » Футбольный клуб Футбольный клуб Футбольный футбол Футбольный футбол Футбольный футбол Футбольный футбол Футбольный футбол Футбольный футбол Футбольный футбольный матч Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб Футбольный клуб футуристический футуристический футляр敍 Football, фут, фут, фут, фут, фут, фут, футуристический футуристический футляр Футбольный клуб Футбольный клуб Футбольный футбол Футбольный футбольный матч футуристические новости футуристические события футбол 󠄀 稟 稻 󠄀 穗 󠄀 穰 󠄀 穹 󠄀 笙 󠄀 󠄀 絆 󠄀 綺 󠄀 綸 󠄀 縣 󠄀 縱 纖 󠄀 羚 翔 󠄀 󠄀 聽 󠄀 脩 󠄀 󠄀 與 󠄀 苺 󠄀 莊 󠄀 󠄀 脩 脩 󠄀 󠄀 󠄀 󠄀 󠄀 󠄀 футуристический футуристический футуристический футуристический футуристический футуристический футляр逞 Football 醉 feat. Result 釉 feat. футбол-футбол-футбол-футбол-футбол-футбол-футбол熙
  17. Список德 футбол, футбол, футбол, футбол, футбол, футбол, футбол, футбол, футбол, футбол, футбол, футбол, футбол, футбол, футбол, футбол, футбол, футбол, футбол, футбол. футуристический футуристический футбол футуристический футбол футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Футбол Видео巢футбол, футбол, футбол, футбол, футбол, футбол 󠄁 突 難 󠄀 梅 󠄀 繁 󠄁 晚 󠄀 卑 󠄀 󠄀 賓 󠄀 敏 󠄀 侮 󠄁 勉 󠄀 步 墨 󠄀 每 祐 󠄀 󠄀 虜 󠄀 淚 󠄀 󠄀 曆 󠄀 歷 󠄀 鍊 󠄀 󠄀 淚 淚 󠄀 󠄀 󠄀 󠄀 󠄀 󠄀 Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол, Футбол.
  18. ^ Для ячеек 30 и 31 строки 19 порядок их репрезентативных показаний перепутан. Следовательно, там, где правильный порядок должен быть таким : каэру (, «лягушка»), за которым следует каори (, «аромат») , их позиции переставляются так, что каори предшествует каэру .
  19. ^ Кроме того, наиболее часто используемый вариант () находится в строке 23, ячейке 85 на уровне 1, а еще один вариант () можно найти сгруппированным как имеющий «золотой» радикал в строке 78, ячейке 63 на уровне 2.
  20. ^ Вопрос о том, какие глифы в рамках критериев унификации следует использовать, остается на усмотрение шрифтового дизайнера. В зависимости от этого (и обстоятельств конечного пользователя), возможно, что ни один, ни другой из этих двух не будет следовать своей форме в стиле Канси.
  21. ^ Это та же неопределенность, что и относительно того, следует ли «ДЕФИС-МИНУС» в ISO / IEC 646 сопоставлять с «ДЕФИСОМ» или «ЗНАКОМ МИНУС» в JIS X 0208.

Справочные сноски

  1. ^ «Почему Япония не создала iPod» . Гатунка . 5 мая 2008 г.
  2. ^ JIS X 0208 не был одним из стандартов, включенных в список применимых целевых систем для отображения нового знака JIS, объявленного Министерством экономики, торговли и промышленности 17 января 2007 года.
  3. ^ abc Стил, Шон (15 апреля 1998 г.). «CP932.TXT: cp932 в таблицу Юникода». Майкрософт.(коды в формате Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
  4. ^ ab «Сопоставление (внешняя версия) японской кодировки Mac OS с Unicode 2.1 и более поздних версий». Яблоко.(коды в формате Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
  5. ^ abcd Лунде, Кен (21 марта 2019 г.). «Краткая история лигатур имен японской эпохи». Типовой блог CJK . Adobe Inc.
  6. ^ abc Японский комитет промышленных стандартов . ISO-IR-233: Набор японских графических символов для обмена информацией, плоскость 1 (обновление ISO-IR 228) (PDF) . ITSCJ/ IPSJ .
  7. ^ Unicode, Inc. (14 октября 2011 г.). «JIS X 0208 (1990) в Unicode».
  8. ^ ван Кестерен, Энн , «Индекс jis0208», Стандарт кодирования , WHATWG
  9. ^ Аб Юнгшик Шин (14 октября 2011 г.). «KSX1001.TXT: KS X 1001 в таблицу Юникода». Юникод, Инк.
  10. ^ JIS C 6225-1979 (коды управляющих символов для набора японских графических символов для обмена информацией) предоставил управляющие символы для начала и конца композиции. JIS C 6225 был переименован в JIS X 0207 в 1987 году и отменен в 1997 году.
  11. ^ В наборах символов IANA Shift JIS определяется ссылкой на JIS X 0208:1997, Приложение 1.
  12. ^ abcd «15. История JIS X 0208» (PDF) , Японский набор графических символов IBM для расширенного кода UNIX (EUC) , IBM, стр. 371, заархивировано (PDF) из оригинала 8 декабря 2017 г. , получено 8 декабря 2017 г.
  13. ^ Лунде, Кен. «Приложение Q § 78-vs-83-3». CJKV Information Processing (дополнительный материал) . О'Рейли.Обратите внимание на включение кодов кутен без дефиса.
  14. ^ Лунде, Кен. «Приложение Q § 78-vs-83-2». CJKV Information Processing (дополнительный материал) . О'Рейли.Обратите внимание на включение кодов кутен без дефиса.
  15. ^ Согласно Номуре (1984), количество измененных форм символов, включая перемещения между кодовыми точками, составляет 294. Согласно Шибано (1997a) и тексту четвертого стандарта, количество измененных форм символов составляет 300.
  16. ^ ab Оригинальный японский: 「JIS X 0208が当初符号化を意図していた現代日本語を符号化するために十分な文字集合を提供することを目的として設計された」
  17. ^ Лунде, Кен. «Приложение Q § TJ2». CJKV Information Processing (дополнительный материал) . О'Рейли.Обратите внимание на включение кодов кутен без дефиса.
  18. ^ Например, Сибано Кодзи (1997a), который был председателем редакционного комитета четвертого стандарта, так сказал о методе выбора: «Он основан на поверхностном понимании выбора набора символов JIS X 0208; это ошибочное понимание» (исходный японский: 「JIS X 0208の文字集合選定の表層的理解に基づくものであり、間違った理解である」 ) и «Существует большая проблема при исследовании всего набора символов, длина которого превышает 10 000 символов. ." (оригинальный японский: 「1万字を越える水準の文字集合の検討としては、大きな問題がある」 )
  19. ^ Марукава, Казуши. «Наборы символов JIS – JIS X 0212:1990». Архивировано из оригинала 22 мая 2005 года.
  20. Чанг, Хешик (31 октября 2021 г.). «Readme для CJKCodecs». cПитон . Фонд программного обеспечения Python.
  21. ^ JIS X 0213:2000, раздел 5.3.2, JIS X 0213:2000, Приложение 1:2004, раздел 3.2.2.

Смотрите также

Рекомендации

В целях цитирования эти японские имена представлены так, как если бы они были в западном порядке там, где романизированы, и сохраняли восточный порядок там, где это не так.

Внешние ссылки