JIS X 0208 — это 2-байтовый набор символов, определенный японским промышленным стандартом и содержащий 6879 графических символов, подходящих для написания текста, географических названий, личных имен и т. д. на японском языке . Официальное название текущего стандарта — наборы кандзи с 7-битной и 8-битной двухбайтовой кодировкой для обмена информацией ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto Hachi-Bit). ни к чему Ни- Байто Джохо Коканъё Фугока Кандзи Сюго ) . Первоначально он был установлен как JIS C 6226 в 1978 году и пересматривался в 1983, 1990 и 1997 годах. Он также называется кодовой страницей 952 компанией IBM. Версия 1978 года также называется кодовой страницей 955 компанией IBM.
Набор символов, установленный JIS X 0208, в первую очередь предназначен для обмена информацией (情報交換, jōhō kōkan ) между системами обработки данных и подключенными к ним устройствами или между системами передачи данных. Этот набор символов может использоваться для обработки данных и обработки текста.
Частичные реализации набора символов не считаются совместимыми. Поскольку есть места, где случались такие вещи, как изначальный комитет по разработке первого стандарта, заботящийся о разделении символов между уровнями 1 и 2, а затем второй стандарт перетасовывающий некоторые вариантные символы (異体字, itaiji ) между уровнями, по крайней мере, в первом и втором стандартах, предполагается, что реализация японских компьютерных систем, не содержащих кандзи и только уровня 1, в свое время рассматривалась для разработки. Однако такие реализации никогда не были указаны как совместимые, хотя примеры, такие как ранний NEC PC-9801, существовали. [1]
Несмотря на то, что в стандарте JIS X 0208:1997 имеются положения, касающиеся совместимости, в настоящее время обычно считается, что этот стандарт не сертифицирует совместимость и не является официальным производственным стандартом, который равнозначен декларации о самосовместимости. [2] Следовательно, де-факто , JIS X 0208-"совместимые" продукты не считаются существующими. Такие термины, как "соответствующий" (準拠, junkyo ) и "поддержка" (対応, taiō ) , включены в JIS X 0208, но семантика этих терминов различается от человека к человеку.
Первый кодирующий байт соответствует номеру строки или ячейки плюс 0x20 или 32 в десятичной системе (см. ниже). Таким образом, кодовый набор, начинающийся с 0x21, имеет номер строки 1, а его ячейка 1 имеет байт продолжения 0x21 (или 33) и т. д.
Для ведущих байтов, используемых для символов, отличных от кандзи , предоставляются ссылки на таблицы на этой странице, в которых перечислены символы, закодированные под этим ведущим байтом. Для ведущих байтов, используемых для кандзи, предоставляются ссылки на соответствующий раздел индекса кандзи Викисловаря .
Некоторые поставщики используют немного иное сопоставление Unicode для этого набора, чем приведенное ниже. Например, Microsoft сопоставляет kuten 1-29 (JIS 0x213D) с U+2015 (горизонтальная черта), [3], тогда как Apple сопоставляет его с U+2014 (длинное тире). [4] Аналогично, Microsoft сопоставляет kuten 1-61 (JIS 0x215D) с U+FF0D [3] (полноширинная форма U+002D дефис-минус), а Apple сопоставляет его с U+2212 (знак минус). [4] Сопоставление Unicode волнистого тире также различается у разных поставщиков. См. ячейки со сносками ниже.
Пунктуация ASCII и JISCII (показанная здесь на желтом фоне) может использовать альтернативные сопоставления с блоками форм половинной и полной ширины , если используется в кодировке, которая объединяет JIS X 0208 с ASCII или с JIS X 0201 , например Shift JIS , EUC-JP или ISO 2022-JP .
Большинство символов в этом наборе были добавлены в 1983 году, за исключением символов 0x2221–0x222E (кутэн 2-1 — 2-14, или первая строка приведенной ниже таблицы), которые были включены в оригинальную версию стандарта 1978 года.
Этот набор включает подмножество инвариантного набора ISO 646 (и, следовательно, также подмножество как ASCII , так и набора JIS X 0201 Roman), за исключением знаков препинания и символов, включающих западные арабские цифры и оба случая основного латинского алфавита . Символы в этом наборе могут использовать альтернативные сопоставления Unicode с блоком Halfwidth и Fullwidth Forms , если используются в кодировке, которая объединяет JIS X 0208 с ASCII или с JIS X 0201, например EUC-JP , Shift JIS или ISO 2022-JP .
Сравните строку 3 KPS 9566 , которой эта строка точно соответствует. Сравните и сопоставьте строку 3 KS X 1001 и GB 2312 , которые включают в эту строку все свои национальные варианты ISO 646 , а не только буквенно-цифровое подмножество.
В этой строке содержится японская хирагана .
Сравните строку 4 GB 2312 , которая соответствует этой строке. Сравните и сопоставьте строку 10 KPS 9566 и KS X 1001 , которые используют ту же компоновку, но в другой строке.
В этой строке содержится японская катакана .
Сравните строку 5 GB 2312 , которая соответствует этой строке. Сравните и сопоставьте строку 11 KPS 9566 и KS X 1001 , которые используют ту же раскладку, но в другой строке. Сравните существенно отличающуюся раскладку катаканы, используемую JIS X 0201 .
В этой строке содержится базовая поддержка современного греческого алфавита без диакритических знаков и конечной сигмы .
Сравните строку 6 GB 2312 и GB 12345 и строку 6 KPS 9566 , которые включают те же греческие буквы в той же компоновке, хотя GB 12345 добавляет вертикальные формы представления, а KPS 9566 добавляет римские цифры. Сравните и сопоставьте строку 5 KS X 1001 , которая смещает греческие буквы, чтобы включить римские цифры первыми.
Эта строка содержит современный русский алфавит и не обязательно достаточна для представления других форм кириллицы .
Сравните строку 7 GB 2312 , которая соответствует этой строке. Сравните и сопоставьте строку 12 KS X 1001 и строку 5 KPS 9566 , которые используют ту же компоновку (но в другой строке).
Все символы в этом наборе были добавлены в 1983 году и отсутствовали в оригинальной редакции стандарта 1978 года.
Строки с 9 по 15 стандарта JIS X 0208 оставлены пустыми.
Однако следующая раскладка для строки 13, впервые представленная NEC , является распространенным расширением. Она используется (с небольшими изменениями, отмеченными в сносках) Windows-932 [3] (который соответствует стандарту кодирования WHATWG , используемому HTML5 ), вариантом PostScript (но, начиная с версии KanjiTalk 7, не является обычным вариантом) [5] MacJapanese и JIS X 0213 ( преемником JIS X 0208). [5] [6] В отличие от других расширений, созданных Windows-932/WHATWG и JIS X 0213, эти два расширения совпадают, а не конфликтуют, поэтому декодирование большей части этой строки поддерживается лучше, чем другие расширения, созданные JIS X 0213.
Для представления кодовых точек используются номера столбцов/строк для однобайтовых кодов и номера кутэнов для двухбайтовых кодов. Для способа идентификации символа без зависимости от кода используются имена символов.
Почти все графические коды символов JIS X 0208 представлены двумя байтами по крайней мере из семи бит каждый. Однако каждый управляющий символ , а также простой пробел – хотя и не идеографический пробел – представлены однобайтовым кодом. Для представления комбинации бит (ビット組合せ, bitto kumiawase ) однобайтового кода используются два десятичных числа – номер столбца и номер строки . Три старших бита из семи или четыре старших бита из восьми, считая от нуля до семи или от нуля до пятнадцати соответственно, образуют номер столбца. Четыре младших бита, считая от нуля до пятнадцати, образуют номер строки. Каждое десятичное число соответствует одной шестнадцатеричной цифре. Например, комбинация бит, соответствующая графическому символу «пробел», равна 010 0000 как 7-битное число и 0010 0000 как 8-битное число. В нотации столбец/строка это представлено как 2/0. Другие представления того же однобайтового кода включают 0x20 в шестнадцатеричном виде или 32 в виде одного десятичного числа.
Двухбайтовые коды располагаются в 94 пронумерованных группах, каждая из которых называется строкой (区, ku , букв. «раздел») . Каждая строка содержит 94 пронумерованных кода, каждый из которых называется ячейкой (点, ten , букв. «точка») . [j] Это составляет в общей сложности 8836 (94 × 94) возможных кодовых точек (хотя не все из них назначены, см. ниже); они изложены в стандарте в 94-строчной, 94-столбцовой кодовой таблице.
Номер строки и номер ячейки (каждый пронумерован от 1 до 94 для стандартного кода JIS X 0208) образуют точку кутэн (区点) , которая используется для представления двухбайтовых кодовых точек. Номер кода или номер кутэн (区点番号, kuten bangō ) выражается в форме «строка-ячейка», причем номера строки и ячейки разделяются дефисом . Например, символ «亜» имеет кодовую точку в строке 16, ячейке 1, поэтому его кодовый номер представлен как «16-01».
В 7-битном JIS X 0208 (который может быть переключен в JIS X 0202 / ISO-2022-JP ) оба байта должны быть из 94-байтового диапазона от 0x 21 (используется для номера строки или ячейки 1) до 0x7E (используется для номера строки или ячейки 94) — точно соответствующего диапазону, используемому для 7-битных печатных символов ASCII, не считая пробела. Соответственно, закодированные байты получаются путем добавления 0x20 (32) к каждому числу. [7] Например, приведенный выше пример 16-01 ("亜") будет представлен байтами 0x30 0x21
. 8-битный EUC-JP вместо этого использует диапазон от 0xA1 до 0xFE (устанавливая старший бит в 1), тогда как другие кодировки, такие как Shift JIS, используют более сложные преобразования. Shift JIS включает больше пространства кодирования, чем необходимо для самого JIS X 0208; некоторые расширения Shift JIS, специфичные для JIS X 0208, используют номера строк выше 94. [8]
Эта структура также используется в GB 2312 материкового Китая , где она изначально известна как区位; qūwèi , и в южнокорейском KS C 5601 (в настоящее время KS X 1001 ), где ku и ten соответственно известны как hang [9] ( 행 ;行; haeng ) и yol [9] ( 열 ;列; yeol ). Более поздний JIS X 0213 расширяет эту структуру, имея более одной плоскости (面, men , букв. «лицо») строк, что также является структурой, используемой CNS 11643 , и связанной со структурой, используемой CCCII .
Среди 2-байтовых кодов строки с 9 по 15 и с 85 по 94 являются неназначенными кодовыми точками (空き領域, aki ryōiki ) ; то есть это кодовые точки без назначенных им символов. Кроме того, некоторые ячейки в других строках также по сути являются неназначенными кодовыми точками.
Эти пустые области содержат кодовые точки, которые в принципе не должны использоваться. За исключением случаев, когда есть предварительное соглашение между соответствующими сторонами, символы ( gaiji ) для обмена информацией не должны назначаться неназначенным кодовым точкам.
Даже при назначении символов неназначенным кодовым точкам им не следует назначать графические символы, определенные в стандарте, и один и тот же символ не следует назначать нескольким неназначенным кодовым точкам; символы не должны дублироваться в наборе.
Кроме того, при назначении символов неназначенным кодовым точкам необходимо проявлять осторожность в отношении унификации в отношении глифов кандзи. Например, ячейка 66 строки 25 соответствует кандзи, означающему «высокий» или «дорогой»; как форма с компонентом, напоминающим символ «рот» (口) в середине (高), так и менее распространенная форма с конструкцией, похожей на лестницу, в том же месте (髙) включаются в одну и ту же кодовую точку. Следовательно, ограничение точек 25-66 формой «рот» и назначение последней формы «лестница» неназначенной кодовой точке технически будет нарушением стандарта.
Однако на практике несколько вариантов Shift JIS , специфичных для конкретных поставщиков, включая Windows-932 и MacJapanese , кодируют расширения поставщиков в нераспределенных строках пространства кодирования для JIS X 0208. Кроме того, большинство кодов, не назначенных в JIS X 0208, назначаются более новым стандартом JIS X 0213 .
Каждому символу JIS X 0208 дано имя . Используя имя символа, можно идентифицировать символы, не полагаясь на их коды. Имена символов согласованы с другими стандартами наборов символов, в частности с Универсальным набором кодированных символов (UCS/ Unicode ), поэтому это один из возможных источников сопоставления символов с наборами символов, такими как Unicode. Например, и символ в ISO/IEC 646 International Reference Version ( US-ASCII ) столбец 4 строка 1, и символ в JIS X 0208 строка 3 ячейка 33 имеют имя "ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A". Следовательно, символ в 4/1 в ASCII и символ в 3-33 в JIS X 0208 можно рассматривать как один и тот же символ (хотя на практике для символа JIS X 0208 используется альтернативное сопоставление из-за кодировок, предоставляющих ASCII отдельно). И наоборот, символы ASCII 2/2 (кавычки), 2/7 (апостроф), 2/13 (дефис-минус) и 7/14 (тильда) могут быть определены как символы, не существующие в этом стандарте.
Имена символов, не являющихся кандзи, используют заглавные латинские буквы, пробелы и дефисы. Символам, не являющимся кандзи, дано общее название на японском языке (日本語通用名称, Nihongo tsūyō meishō ) , но некоторых положений для этих названий не существует. [k] Имена кандзи, с другой стороны, механически устанавливаются в соответствии с соответствующим шестнадцатеричным представлением их кода в UCS/Unicode. Имя кандзи можно получить, добавив к кодовой точке Unicode «CJK UNIFIED IDEOGRAPH-». Например, ячейка 1 строки 16 (亜) соответствует U+4E9C в UCS, поэтому ее имя будет «CJK UNIFIED IDEOGRAPH-4E9C». Кандзи не даются общие названия в японском языке.
JIS X 0208 предписывает набор из 6879 графических символов, которые соответствуют двухбайтовым кодам с семью или восемью битами на байт; в JIS X 0208 это называется набором кандзи (漢字集合, kanji shūgō ) , который включает в себя 6355 кандзи, а также 524 не-кандзи (非漢字, hikanji ) , включая такие символы, как латинские буквы , кана и так далее.
Что касается специальных символов в наборе кандзи, некоторые символы из набора графических символов Международной справочной версии (IRV) ISO/IEC 646 :1991 (эквивалент ASCII ) отсутствуют в JIS X 0208. Есть вышеупомянутые четыре символа "КАВЫЧКИ", "АПОСТРОФ", "ДЕФИС-МИНУС" и "ТИЛЬДА". Первые три разделены на различные кодовые точки в наборе кандзи (Нисимура, 1978; стандарт JIS X 0221-1:2001, раздел 3.8.7). "ТИЛЬДА" из IRV не имеет соответствующего символа в наборе кандзи.
В следующей таблице рассматриваемые символы IRV ISO/IEC 646:1991 сравниваются с их многочисленными эквивалентами в JIS X 0208, за исключением символа IRV «ТИЛЬДА», который сравнивается с «WAVE DASH» из JIS X 0208. Записи в столбцах «Символ» используют кодовые точки UCS/Unicode, поэтому особенности отображения могут отличаться.
Символам ASCII/IRV, не имеющим точных эквивалентов JIS X 0208, позднее были присвоены кодовые точки JIS X 0213; они также перечислены ниже, как и сопоставление Microsoft этих четырех символов.
Это означает, что набор кандзи является самым распространенным в мире набором символов, несовместимым снизу вверх; это считается одним из слабых мест этого стандарта.
Даже при наличии 90 общих специальных символов, цифр и латинских букв в наборах кандзи и IRV этот стандарт не следует порядку ISO/IEC 646. Эти 90 символов распределены между строками 1 (знаки препинания) и 3 (буквы и цифры), хотя строка 3 следует порядку ISO 646 только для 62 букв и цифр (например, 4/1
(«A») в ISO 646 становится 2/3 4/1
(т. е. 3-33) в JIS X 0208).
Что касается причины того, почему эти цифры, латинские буквы и т. д. в наборе кандзи являются «полноширинными буквенно-цифровыми символами» (全角英数字, zenkaku eisūji ), и почему первоначальная реализация имела иную интерпретацию по сравнению с IRV, то считается, что это связано с этими несовместимостями.
С момента принятия первого стандарта стало возможным представлять составные символы (合成, gōsei ), такие как обведенные числа , лигатуры для названий единиц измерения и римские цифры ; [10] им не были предоставлены независимые кодовые точки kuten . Хотя отдельные компании, производящие информационные системы, могут попытаться представить эти символы так, как этого могут потребовать клиенты, по составу символов, никто не просил добавить их в стандарт, вместо этого предпочитая предлагать их как gaiji .
В четвертом стандарте (1997) все эти символы были явно определены как символы, которые сопровождают продвижение текущей позиции; то есть, они являются пробельными символами . Кроме того, было постановлено, что они не должны создаваться путем композиции символов. По этой причине было запрещено представлять латинские символы диакритическими знаками вообще, за исключением, возможно, символа ангстрема ( Å ) в строке 2, ячейке 82.
Хирагана и катакана в JIS X 0208, в отличие от JIS X 0201 , включают в себя обозначения дакутэн и хандакутэн как часть символа. Катакана wi (ヰ) и we (ヱ) ( обе устаревшие в современном японском языке), а также маленькая wa (ヮ) , отсутствующая в JIS X 0201, также включены.
Расположение каны в JIS X 0208 отличается от расположения катаканы в JIS X 0201. В JIS X 0201 слоговое письмо начинается с во (ヲ) , за которым следует маленькая кана, отсортированная по порядку годзюон , за которой следует полноразмерная кана. кана, также в порядке годзюон (ヲァィゥェォャュョッーアイウエオ......ラリルレロワン). С другой стороны, в JIS X 0208 кана сортируются сначала по порядку годзюон , затем в порядке «маленькая кана, полноразмерная кана, кана с дакутеном и кана с хандакутеном», так что одна и та же основная кана сгруппирована. с его производными (ぁあぃいぅうぇえぉお......っつづ......はばぱひびぴふぶぷへべぺほぼぽ......ゎわゐゑをん). Такой порядок был выбран для того, чтобы упростить сортировку словарных поисков на основе каны (Yasuoka, 2006). [л]
Как упоминалось выше, в этом стандарте ранее определенный порядок катаканы в JIS X 0201 не был соблюден в JIS X 0208. Считается, что катакана JIS X 0201, являющаяся " каной половинной ширины ", возникла из-за несовместимости с катаканой этого стандарта. Этот момент также является одним из слабых мест этого стандарта.
Как были выбраны кандзи в этом стандарте из каких источников, почему они разделены на уровень 1 и уровень 2, и как они организованы, все это подробно объясняется в четвертом стандарте (1997). Согласно этому объяснению, кандзи, включенные в следующие четыре списка кандзи, были отражены в 6349 символах первого стандарта (1978).
Во втором и третьем стандартах они добавили четыре и два символа к уровню 2 соответственно, доведя общее количество кандзи до 6355. Кроме того, во втором стандарте были изменены формы символов, а также транспозиция между уровнями; в третьем стандарте также были изменены формы символов. Они описаны ниже.
2965 кандзи уровня 1 занимают строки с 16 по 47. 3390 кандзи уровня 2 занимают строки с 48 по 84.
Для уровня 1 были выбраны символы, общие для нескольких списков глифов кандзи, с использованием кандзи tōyō , черновика исправления кандзи tōyō и кандзи jinmeiyō в качестве основы. Также были проконсультированы JIS C 6260 («Идентификационный код То-До-Фу-Кен (префектура)»; в настоящее время JIS X 0401) и JIS C 6261 («Идентификационный код городов, поселков и деревень»; в настоящее время JIS X 0402); кандзи для почти всех японских префектур , городов, районов, округов, поселков, деревень и т. д. были намеренно помещены на уровень 1. [m] Кроме того, были добавлены поправки экспертов.
Уровень 2 был посвящен кандзи, которые встречались в вышеупомянутых четырех основных списках, но не были отобраны для уровня 1. Как отмечено ниже, кандзи уровня 1 были упорядочены по их произношению, поэтому среди кандзи, произношение которых было трудно определить, были те, которые были перенесены с уровня 1 на уровень 2 на этой основе (Нисимура, 1978).
Из-за этих решений, по большей части, уровень 1 содержит более часто используемые кандзи, а уровень 2 содержит более редко используемые кандзи, но, конечно, они оценивались по стандартам дня; с течением времени некоторые кандзи уровня 2 стали более часто используемыми, например, один со значением «парить» (翔) и один со значением «блестеть» (煌); и наоборот, некоторые кандзи уровня 1 стали нечастыми, в частности, те, которые означают «сантиметр» (糎) и «миллиметр» (粍). Из текущих кандзи дзёё 30 попадают на уровень 2, [n], в то время как три вообще отсутствуют (塡󠄀, 剝󠄀 и 頰󠄀). [o] Из текущих кандзи дзинмэйё 192 находятся на уровне 2, [p], в то время как 105 не являются частью стандарта. [к]
Кандзи на уровне 1 сортируются в порядке «репрезентативного чтения» каждого из них (т. е. канонического чтения, выбранного только для целей этого стандарта); чтение кандзи для этого может быть чтением он или кун ; чтения сортируются в порядке годзюон . [r] Как правило, чтение он (китайское звучание) считается репрезентативным чтением; если кандзи имеет несколько чтений он , чтение, которое считается преобладающим по частоте использования, используется для репрезентативного чтения (стандарт JIS C 6226-1978, раздел 3.4). Для небольшого процента кандзи, которые либо не имеют чтения он , либо имеют малоизвестное и нечасто используемое чтение он, в качестве репрезентативного чтения использовалось чтение кун . Когда в качестве репрезентативного чтения должно использоваться чтение глагола кун , используется форма рэнёкэй (а не сюсикэй ).
Например, ячейки с 1 по 41 в строке 16 содержат 41 символ, отсортированный как начинающийся с чтения a . Среди них 22 символа, включая 16-10 (葵: при чтении « ki »; кун -чтение « aoi ») и 16-32 (粟: при чтении « zoku » и « shoku »; кун -чтение « awa »), находятся там на основе их кун -чтений. 16-09 (逢: при чтении « hō », кун -чтение « a(i) ») и 16-23 (扱: при чтении « sō » и « kyū », кун -чтение « atsuka(i) ») — это всего лишь два примера глаголов в форме рэнёкэй, используемых для репрезентативного чтения.
Если репрезентативное чтение одинаково для разных кандзи, то кандзи, использующий чтение он , помещается перед тем, который использует чтение кун . Если чтение он или кун одинаково для нескольких кандзи, то они упорядочиваются по их первичному радикалу и количеству черт .
Будь то на уровне 1 или на уровне 2, итайдзи располагаются так, чтобы непосредственно следовать за своей образцовой формой. Например, на уровне 2, сразу после строки 49, ячейки 88 (劍), следующие сразу за ней символы отклоняются от общего правила (в данном случае от количества штрихов), чтобы включить три варианта 49-88 (劔,劒и剱). [s]
Кандзи на уровне 2 расположены в порядке первичного радикала и количества черт. Если эти два свойства одинаковы для разных кандзи, они сортируются по чтению.
Было отмечено, что в наборе кандзи есть кандзи, которые не встречаются в полных, несокращенных словарях кандзи, и что их источники неизвестны. Например, всего через год после того, как был установлен первый стандарт, Таджима (1979) сообщил, что он подтвердил 63 кандзи, которые не были найдены ни в Shinjigen (большом словаре кандзи, опубликованном Kadokawa Shoten ), ни в Dai Kan-Wa jiten , и они не имели смысла как рякудзи любого рода; он отметил, что было бы предпочтительнее, чтобы кандзи, которых нет в словарях кандзи, были выбраны из определенных источников. Эти кандзи стали известны как «призрачные» символы (幽霊文字, yūrei moji ) или «призрачные кандзи» (幽霊漢字, yūrei kanji ) , среди прочих названий.
Редакционный комитет четвертой версии стандарта также увидел проблему в существовании кандзи с неизвестными источниками и поэтому провел расследование относительно того, на какие именно источники ссылался редакционный комитет первой версии. В результате было обнаружено, что первоначальный редакционный комитет в значительной степени полагался на «Результаты анализа соответствия» для сбора кандзи. Когда редакционный комитет исследовал «Результаты анализа соответствия», стало ясно, что многие из кандзи, включенных в набор кандзи, но не найденных в исчерпывающих словарях кандзи, предположительно, были взяты из списков «Японские кандзи для регистрации имени личности» и «Кандзи для списка национальных административных округов», упомянутых в «Результатах анализа соответствия».
Было подтверждено, что не существует оригинального текста для "Японского имени регистрации личности Кандзи", упомянутого в "Результатах анализа соответствия". Для "Списка национальных административных округов" Сасахара Хироюки из редакционного комитета четвертой версии изучил кандзи, которые появились на страницах, находящихся в процессе разработки для первого стандарта. Комитет также проконсультировался со многими древними писаниями, а также со многими примерами личных имен в базе данных телефонных справочников NTT .
Благодаря этому тщательному расследованию комитет смог сократить количество кандзи, источник которых не может быть уверенно объяснен, до двенадцати, показанных в соседней таблице. Предполагается, что из них несколько глифов появились из-за ошибок копирования. В частности, 妛, вероятно, был создан, когда печатники пытались создать 𡚴, вырезая и вставляя 山 и 女 вместе. Тень от этого процесса была неверно истолкована как линия, в результате чего получилась 妛 (изображение этого можно найти в Jōyō kanji jiten ).
Согласно спецификациям четвертого стандарта (1997), унификация (包摂, hōsetsu , не тот же термин, который используется для « унификации » Unicode, хотя это почти та же концепция) — это действие по присвоению символу той же кодовой точки без учета его различных форм. В четвертом стандарте разрешенные глифы ограничены; степень, в которой конкретные аллографические глифы унифицируются в графемическую кодовую точку, четко определена.
Кроме того, согласно спецификациям в стандарте, глиф (字体, jitai , букв. «тело символа»;) — это абстрактное понятие относительно графического представления графического символа; форма символа (字形, jikei , букв. «очертание символа»; также «глиф» в некотором смысле, но дифференцируется на другом уровне в целях стандартизации) — это представление в виде графической формы, которую глиф принимает в действительности (например, из-за того, что глиф написан от руки, напечатан, отображен на экране и т. д.). Для одного глифа существует бесконечный диапазон возможных конкретно и/или визуально различных форм символов. Изменение между формой символа одного глифа называется «разницей в дизайне» (デザインの差, dezain no sa ) .
Степень, в которой глиф унифицирован с одной кодовой точкой, определяется в соответствии с «примером глифа» (例示字体, reiji jitai ) этой кодовой точки и «критериями унификации» (包摂規準, hōsetsu kijun ) , которые могут быть применены к этому примеру глифа; то есть пример глифа для кодовой точки применяется к этой кодовой точке, и любые глифы, для которых части, составляющие пример глифа, заменяются в соответствии с критериями унификации, также применяются к этой кодовой точке.
Например, пример глифа в 33-46 (僧) состоит из радикала 9 (亻) и кандзи, который в конечном итоге породил со кану (曽). Кроме того, в критерии объединения 101 отображаются три кандзи: первый принимает форму, наиболее часто встречающуюся в японском языке (曽); второй содержит более традиционную форму (曾), в которой первые два штриха образуют радикал 12 (цифра кандзи для числа 8:八); а третий похож на второй, за исключением того, что радикал 12 инвертирован (曾). Следовательно, все три перестановки (僧,僧,僧) применяются к кодовой точке в строке 33, ячейке 46.
В четвертом стандарте, включая один из исправлений первого издания, содержится 186 критериев унификации.
Когда пример глифа кодовой точки состоит из более чем одного глифа-части, критерии унификации могут быть применены к каждой части. После применения критерия унификации к одной части глифа, к этой части не может быть применено больше никаких критериев унификации. Кроме того, критерий унификации не допускается, если полученный глиф будет полностью совпадать с глифом другой кодовой точки.
Пример глифа — это не более чем пример для этой кодовой точки; это не глиф, «одобренный» стандартом. Кроме того, критерии унификации должны использоваться только для общеупотребительных кандзи и для назначения вещей кодовым точкам этого стандарта. Стандарт требует, чтобы общеупотребительные кандзи не создавались на основе примеров глифов и критериев унификации.
Кандзи из набора кандзи не выбираются полностью последовательно в соответствии с критериями унификации. Например, хотя 41-7 соответствует форме, в которой третья и четвертая черты пересекаются (彥), а также форме, в которой они не пересекаются (彦) в соответствии с критерием унификации 72, 20-73 соответствует только форме, в которой они не пересекаются (顔), а 80-90 соответствует только форме, в которой они пересекаются (顏).
Термины «унификация», «критерии унификации» и «пример глифа» были приняты в четвертом стандарте. С первой по третью версию кандзи и отношения между кандзи были сгруппированы в три типа: «независимые» (独立, dokuritsu ) , «совместимые» (対応, taiō ) и «эквивалентные» (同値, dōchi ) ; было объяснено, что символы, признанные эквивалентными, «объединяются только в одну точку». «Эквивалентность» включала, помимо кандзи с точно такой же формой, кандзи с различиями из-за стиля и кандзи, где разница в форме символа невелика.
В первом стандарте было оговорено, что «настоящий стандарт... не устанавливает особенности форм символов» (Раздел 3.1); в нем также говорится, что «целью настоящего стандарта является установление общей идеи символов и их кодов; дизайн их форм символов и т. д. выходят за рамки его сферы действия». Во втором и третьем стандартах также примечания о том, что конкретные дизайны форм символов выходят за рамки его сферы действия (примечание к пункту 1). Четвертый стандарт также оговаривает, что «настоящий стандарт регулирует графические символы, а также их битовые комбинации, и использование, конкретные дизайны отдельных символов и т. д. не входят в сферу действия настоящего стандарта» (JIS X 0208:1997, пункт 1).
В четвертом стандарте определены «критерии унификации для обеспечения совместимости с предыдущими стандартами» (過去の規格との互換性を維持するための包摂規準, kako no kikaku to no gokansei wo iji suru tame no hōsetsu kijun ) . Их применение ограничено 29 кодовыми точками, символы которых сильно различаются в зависимости от стандартов JIS C 6226-1983 и последующих версий и JIS C 6226-1978. Для этих 29 кодовых точек глифы из JIS C 6226-1983 и далее отображаются как «A», а глифы из JIS C 6226-1978 как «B». На каждом из них могут быть применены как глифы "A", так и "B". Однако для того, чтобы заявить о совместимости со стандартом, необходимо явно указать, использовалась ли форма "A" или "B" для каждой кодовой точки .
В статье 7 стандарта JIS X 0208:1997 в сочетании с приложениями 1 и 2 определены в общей сложности восемь схем кодирования.
В описаниях ниже регионы "CL" (управление слева), "GL" (графическое слева), "CR" (управление справа) и "GR" (графическое справа) соответственно, в нотации столбцов/строк, от 0/0 до 1/15, от 2/1 до 7/14, от 8/0 до 9/15 и от 10/1 до 15/14. Для каждого кода 2/0 назначается графический символ "SPACE", а 7/15 - управляющий символ "DELETE". Управляющие символы C0 (определенные в JIS X 0211 и соответствующие ISO/IEC 6429 ) назначаются региону CL.
Среди кодировок, предусмотренных в четвертом стандарте, только набор кодированных символов «Shift» зарегистрирован IANA . [ 11] Однако некоторые другие тесно связаны с зарегистрированными IANA кодировками, определенными в других местах (EUC-JP и ISO-2022-JP).
JIS X 0208 может использоваться в ISO 2022 /JIS X 0202 (подмножеством которого является ISO-2022-JP). Ниже перечислены escape-последовательности для обозначения JIS X 0208 для каждого из четырех наборов кодов ISO 2022. Здесь «ESC» относится к управляющему символу « Escape » (0x1B или 1/11).
Escape-последовательность, начинающаяся с ESC 2/4, выбирает многобайтовый набор символов. Escape-последовательность, начинающаяся с ESC 2/6, указывает на ревизию предстоящего выбора набора символов. JIS C 6226:1978 идентифицируется байтом 4/0 многобайтового-94-идентификатора (соответствует ASCII @
). JIS C 6226:1983 / JIS X 0208:1983 идентифицируется байтом 4/2 многобайтового-94-идентификатора ( B
). JIS X 0208:1990 также идентифицируется байтом 4/2 многобайтового-идентификатора, но его можно отличить по идентификатору ревизии 4/0 ( @
).
При использовании набора кандзи этого стандарта либо с набором графических символов ISO/IEC 646:1991 IRV ( ASCII ), либо с набором графических символов JIS X 0201 для латинских символов ( JIS-Roman ), обработка символов, общих для обоих наборов, становится проблематичной. Если не принять специальных мер, символы, включенные в оба набора, не будут соответствовать друг другу один к одному, и одному символу может быть присвоено более одной кодовой точки; то есть это может привести к дублированию кодирования.
JIS X 0208:1997, в отношении случаев, когда символ является общим для обоих наборов, в основном запрещает использование кодовой точки в наборе кандзи (которая является одной из двух кодовых точек), устраняя дублирующие кодировки. Считается, что символы, имеющие одинаковое имя, являются одним и тем же символом.
Например, как имя символа, соответствующего битовому шаблону 4/1 в ASCII, так и имя символа, соответствующего ячейке 33 строки 3 набора кандзи, являются "ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A". В International Reference Version + 8-битный код для кандзи, будь то битовый шаблон 4/1 или битовый шаблон, соответствующий ячейке 33 строки 3 набора кандзи (10/3 12/1), представлена буква " A " (т. е. "ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A"). Стандарт запрещает использование битового шаблона "10/3 12/1" в попытке устранить дублирующую кодировку.
Принимая во внимание реализации, которые рассматривают символы кодовых точек в наборе кандзи как " полноширинные символы ", а символы ASCII или JIS-Roman как разные символы, использование кодовых точек набора кандзи разрешено только в целях обратной совместимости. Например, в целях обратной совместимости разрешается рассматривать 10/3 12/1 в International Reference Version + 8-битный код для кандзи как соответствующие полноширинной "A".
Если набор кандзи используется вместе с ASCII или JIS-Roman, то даже если стандарт строго соблюдается, уникальная кодировка символа не гарантируется. Например, в International Reference Version + 8-битный код для кандзи допустимо представлять дефис с помощью битовой комбинации 2/13 для символа "ДЕФИС-МИНУС", а также с помощью строки 1 набора кандзи, ячейки 30 (битовая комбинация 10/1 11/14) для символа "ДЕФИС". Кроме того, стандарт не определяет, какой из двух использовать для чего, и поэтому дефису не дается одна уникальная кодировка. Та же проблема касается знака минус , кавычек и т. д.
Более того, даже если набор кандзи используется как отдельный код, нет гарантии, что реализована уникальная кодировка символов. Однако во многих случаях полноширинный " ИДЕОГРАФИЧЕСКИЙ ПРОБЕЛ " в строке 1, ячейке 1 и пробел половинной ширины (2/0) сосуществуют. Чем они должны отличаться, не объясняется само собой и не указано в стандарте.
До тех пор, пока не пройдет пять лет после того, как был установлен, повторно утвержден или пересмотрен Японский промышленный стандарт, предыдущий стандарт проходит процесс повторного утверждения, пересмотра или отмены. С момента установления стандарт подвергался пересмотру три раза, и в настоящее время действует четвертый стандарт.
Первый стандарт — JIS C 6226-1978 «Код набора японских графических символов для обмена информацией» (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) , установленный министром международной торговли и промышленности Японии 1 января 1978 года. Его также сокращенно называют 78JIS . По поручению Агентства промышленной науки и технологий комитет по исследованиям и изучению стандартизации кодов кандзи JIPDEC подготовил проект. Председателем комитета был Моригучи Сигэйчи.
Код включал 453 некандзи (включая хирагану, катакану, латинский, греческий и кириллический алфавиты и знаки препинания) и 6349 кандзи (2965 кандзи уровня 1 и 3384 кандзи уровня 2), что в общей сложности составляло 6802 символа. [12] Он еще не включал символы для рисования рамок . Сам стандарт был установлен в шрифте Ishii Mincho компании Shaken Co., Ltd.
Второй стандарт JIS C 6226-1983 «Код набора японских графических символов для обмена информацией» (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei ) пересмотрел первый стандарт 1 сентября 1983 года. Он также называется 83JIS . По поручению AIST комитет JIPDEC, связанный с кодами кандзи, подготовил проект JIS. Председателем комитета был Мотоока Туру.
Проект второго стандарта был основан на рассмотрении таких факторов, как обнародование кандзи дзёё , введение кандзи дзинмэйё и стандартизация японского телетекса Министерством почт и телекоммуникаций ; также была выполнена следующая модификация, чтобы соответствовать JIS C 6234-1983 (формы символов матричного принтера с 24 пикселями; в настоящее время JIS X 9052).
Среди изменений в этих 300 или около того формах символов кандзи, многие глифы уровня 1, которые были в стиле словаря Канси, были изменены на варианты, и особенно более упрощенные формы (например, рякудзи и расширенный синдзитай ). Например, пара кодовых точек, которые часто подвергаются критике из-за того, что были сильно изменены, это строка 18, ячейка 10 (78JIS:鷗, 83JIS:鴎) и строка 38, ячейка 34 (78JIS:瀆, 83JIS:涜).
Было много более мелких изменений в сторону от вариантов стиля Канси; например, строка 25, ячейка 84 (鵠) потеряла часть черты. Кроме того, там, где некоторые глифы для кандзи уровня 1 не были формами стиля Канси, некоторые были изменены на формы стиля Канси; например, строка 80, ячейка 49 (靠) приобрела часть черты (т. е. ту же часть черты, которую потеряли 25-84).
Чтобы прояснить первоначальный замысел первого стандарта, они в конечном итоге попали в параметры для критериев унификации в четвертом стандарте. Различие в форме для примеров, отмеченных выше ("鵠" и "靠") попадает под параметры для критерия унификации 42 (касательно компонента "告"). [t]
Основная часть изменений в формах символов — это различия между кандзи уровня 1 и уровня 2. В частности, упрощение чаще применялось к кандзи уровня 1, чем к кандзи уровня 2; упрощения, применяемые к кандзи уровня 1 (например, "潑" на "溌" и "醱" на "醗"), как правило, не применялись к кандзи уровня 2 ("撥" остались без изменений). Вышеупомянутые 25-84 (鵠) и 80-49 (靠) также получили различную обработку, поскольку первый находится на уровне 1, а последний — на уровне 2. Тем не менее, были некоторые изменения независимо от уровня; например, символы, содержащие компоненты "дверь" (戸) и "зима" (冬), были изменены без какой-либо разницы в обработке между кандзи уровня 1 и уровня 2.
Однако для 29 кодовых точек (таких как проблемные 18-10 и 38-34, упомянутые выше) формы, унаследованные четвертым стандартом, противоречат изначальному замыслу первого. Для них существуют специальные критерии унификации, чтобы поддерживать совместимость с предыдущими стандартами в этих кодовых точках.
Когда 1 марта 1987 года была введена новая категория «X» для японских промышленных стандартов (для областей, связанных с информацией), второй стандарт был переименован в JIS X 0208-1983 [12] .
Третий стандарт JIS X 0208-1990 «Кодекс набора японских графических символов для обмена информацией» (情報交換用漢字符号, Jōhō Kōkan'yō Kanji Fugō ) пересмотрел второй стандарт 1 сентября 1990 года. Его также называют 90JIS для краткости. По поручению AIST комитет Японской ассоциации стандартов по пересмотру JIS X 0208 создал проект. Председателем комитета был Тадзима Кадзуо.
225 иероглифов кандзи были изменены, и два символа были добавлены на уровень 2 (84-05 "凜" и 84-06 "熙"). Это было разъединение итайдзи для двух уже включенных символов (49-59 "凛" и 63-70 "煕"). Некоторые из изменений и два дополнения соответствовали 118 кандзи дзинмэйё, добавленным в марте 1990 года. [12] Сам стандарт был установлен в Хэйсэй Минтё.
Четвертый стандарт JIS X 0208:1997 «7-битные и 8-битные наборы кандзи с двухбайтовой кодировкой для обмена информацией» ( 7ビット及び8ビットの2バイト情報交換用符号化漢字集合, в Ойоби Хачи-Битто нет Ni-Baito Jōhō Kōkan’yō Fugōka Kanji Shugo ) пересмотрел третий стандарт 20 января 1997 года. Для краткости его также называют 97JIS . По поручению AIST комитет JSA по исследованию и изучению наборов кодированных символов подготовил проект. Председателем комитета был Сибано Кодзи.
Основные принципы этого пересмотра заключались в том, чтобы не вносить никаких изменений в набор символов, прояснять неоднозначные положения и делать стандарт относительно более простым в использовании. Добавление, удаление и перестановка кодовых точек не производились, и без исключения примеры глифов также были оставлены без изменений. Однако положения стандарта были полностью переписаны и/или дополнены. В то время как третий стандарт был длиной 65 страниц без объяснений, четвертый стандарт был длиной 374 страницы без объяснений.
Основные пункты пересмотра:
JIS X 0213 (расширенные кандзи) был разработан «с целью предложить достаточный набор символов для кодирования современного японского языка, каковым JIS X 0208 изначально и задумывался»; [16] он определяет набор символов, который расширяет набор кандзи JIS X 0208. Составители JIS X 0213 рекомендуют перейти от JIS X 0208 к JIS X 0213, среди преимуществ которого — совместимость JIS X 0213 со списком символов кандзи Hyōgai и с более новыми кандзи jinmeiyō .
Вопреки ожиданиям разработчиков, принятие JIS X 0213 было совсем не быстрым с момента его принятия в 2000 году. Редакционный комитет JIS X 0213:2004 написал (в 2004 году): «Статус, при котором «большинство информационных систем могут использовать только JIS X 0208», все еще сохраняется» (JIS X 0213:2000, Приложение 1:2004, раздел 2.9.7).
Для Microsoft Windows , преобладающей операционной системы (и, следовательно, поставляющей преобладающую среду рабочего стола ) в секторе персональных компьютеров, репертуар JIS X 0213 был включен с Windows Vista , выпущенной в ноябре 2006 года. Mac OS X совместима с JIS X 0213 с версии 10.1 (выпущенной в 2001 году). Многие Unix-подобные системы, такие как Linux, могут (опционально) поддерживать JIS X 0213 при желании. Поэтому считается, что со временем поддержка JIS X 0213 на персональных компьютерах не будет препятствием для его окончательного принятия.
Среди разработчиков JIS X 0213 есть те, кто ожидает увидеть смесь JIS X 0208 и JIS X 0213 до принятия JIS X 0213 (Satō, 2004). Однако JIS X 0208 продолжает использоваться в настоящее время, и многие предсказывают, что он останется стандартом. Существуют барьеры, которые необходимо преодолеть, если JIS X 0213 должен заменить JIS X 0208 в общем использовании:
Поскольку JIS X 0208 / JIS C 6226 — это в первую очередь набор символов , а не строго определенная кодировка символов , несколько компаний внедрили собственные кодировки набора символов.
Некоторые из них включают в себя назначения символов, специфичные для поставщика, вместо нераспределенных областей стандарта. К ним относятся Windows-932 и MacJapanese, а также кодировка символов PC98 от NEC . Хотя IBM-932 и IBM-942 также включают назначения поставщиков, они включают их за пределами области, используемой для JIS X 0208.
Как отмечено выше, набор кандзи не совместим снизу вверх с набором графических символов ISO/IEC 646:1991 IRV (ASCII). Набор кандзи и набор графических символов IRV могут использоваться вместе, как указано в JIS X 0208 (IRV + 7-битный код для кандзи и IRV + 8-битный код для кандзи). Их также можно использовать вместе в EUC-JP .
В наборе кандзи отсутствуют три символа, включенные в набор графических символов JIS X 0201 для латинских символов: 2/2 (КАВЫЧКИ), 2/7 (АПОСТРОФ) и 2/13 (ДЕФИС-МИНУС). Набор кандзи содержит все символы, включенные в набор графических символов JIS X 0201 для катаканы.
Набор кандзи и набор графических символов для латинских символов могут использоваться вместе, как указано в JIS X 0208 (латинские символы + 7-битный код для кандзи и латинские символы + 8-битный код для кандзи). Набор кандзи, набор графических символов для латинских символов и набор графических символов JIS X 0201 для катаканы могут использоваться вместе, как указано в JIS X 0208 (набор символов с кодировкой shift; т. е. Shift JIS ). Набор кандзи и набор графических символов для катаканы могут использоваться вместе в EUC-JP .
JIS X 0212 (дополнительные кандзи) определяет дополнительные символы с кодовыми точками для обработки информации, для которой требуются символы, отсутствующие в JIS X 0208. Вместо того чтобы выделять символы в основном наборе кандзи JIS X 0208, он определяет второй набор кандзи размером 94 на 94, содержащий дополнительные символы.
JIS X 0212 можно использовать с JIS X 0208 в EUC-JP . Кроме того, JIS X 0208 и JIS X 0212 являются исходными стандартами для унификации Хань UCS/Unicode , что означает, что кандзи из обоих наборов могут быть включены в один документ в формате Unicode.
Среди кодовых точек, измененных второй версией JIS X 0208, 28 кодовых точек в JIS X 0212 отражают формы символов до изменений. [17] Кроме того, JIS X 0212 переназначает « закрывающий знак », который JIS X 0208 назначил как некандзи ( 〆 , в строке 1, ячейке 26), как кандзи (乄, в строке 16, ячейке 17). JIS X 0212 не имеет общих символов с JIS X 0208, кроме этих. Следовательно, он не подходит для общего использования сам по себе.
Однако в четвертой версии JIS X 0208 связь с JIS X 0212 вообще не была определена. Считается, что это произошло потому, что редакционный комитет четвертого стандарта JIS X 0208 имел критическое мнение о методах выбора и идентификации JIS X 0212. [18] Значения символов и обоснования выбора не были должным образом задокументированы, что затрудняло определение того, соответствуют ли желаемые кандзи тем, что есть в его репертуаре. [19] Текст четвертого стандарта, а также указание на проблемные моменты выбора символов JIS X 0212, гласит, что «считается, что не только выбор символов невозможен, но и их невозможно использовать вместе; связь с JIS X 0212 вообще не определена». (раздел 3.3.1)
JIS X 0213 (расширенный кандзи) определяет набор кандзи, который расширяет набор кандзи JIS X 0208. Согласно этому стандарту, он «разработан с целью предложить достаточный набор символов для кодирования современного японского языка, каковым JIS X 0208 задумывался с самого начала». [16]
Набор кандзи JIS X 0213 включает в себя все символы, которые могут быть представлены в наборе кандзи JIS X 0208, со многими дополнениями. Всего JIS X 0213 определяет 1183 некандзи и 10 050 кандзи (всего 11 233 символа) в двух плоскостях 94 на 94 (面, men ) . Первая плоскость (некандзи и кандзи уровня 1–3) основана на JIS X 0208, тогда как вторая плоскость (кандзи уровня 4) разработана так, чтобы вписываться в нераспределенные строки JIS X 0212, что позволяет использовать их в EUC-JP . [20] JIS X 0213 также определяет Shift_JISx0213 , вариант Shift_JIS, способный кодировать весь JIS X 0213.
Для большинства намерений и целей плоскость 1 JIS X 0213 является надмножеством JIS X 0208. Однако к некоторым кодовым точкам в JIS X 0213 применяются разные критерии унификации по сравнению с JIS X 0208. Следовательно, некоторым парам глифов кандзи, которые были представлены одной кодовой точкой JIS X 0208, из-за их унификации даны отдельные кодовые точки в JIS X 0213. Например, глиф в строке 33, ячейке 46 JIS X 0208 ("僧", описанный выше) унифицирует несколько вариантов благодаря своему правому компоненту. В JIS X 0213 две формы (содержащие компонент «丷») объединены в плоскости 1, строке 33, ячейке 46, а другая (содержащая компонент «八») расположена в плоскости 1, строке 14, ячейке 41. Следовательно, следует ли сопоставлять ячейку 46 строки 33 JIS X 0208 с ячейкой 46 строки 33 JIS X 0213 или ячейкой 41 строки 14, не может быть определено автоматически. [u] Это ограничивает степень, в которой JIS X 0213 может считаться совместимым снизу вверх с JIS X 0208, как признал редакционный комитет JIS X 0213. [21]
Однако, по большей части, строка m ячейка n в JIS X 0208 соответствует плоскости 1 строка m ячейка n в JIS X 0213; поэтому на практике не возникает большой путаницы. Это связано с тем, что большинство шрифтов стали использовать глифы, представленные в JIS X 0208, и большинство пользователей не осознают критерии унификации.
Набор кандзи JIS X 0208 входит в число исходных стандартов для унификации Хань в ISO/IEC 10646 (UCS) и Unicode . Каждый кандзи в JIS X 0208 соответствует своей собственной кодовой точке в базовой многоязычной плоскости (BMP) UCS/Unicode.
Некандзи в JIS X 0208 также соответствуют своим собственным кодовым точкам в BMP. Однако для некоторых специальных символов некоторые системы реализуют иные соответствия, чем в UCS/Unicode (которые основаны на именах символов, указанных в JIS X 0208:1997).
Для целей цитирования эти японские имена представлены в западном порядке там, где они романизированы, и сохраняют восточный порядок там, где они не романизированы.