stringtranslate.com

объединение Хань

Различия для одной и той же кодовой точки Unicode (U+8FD4) в региональных версиях исходного Han Sans

Унификация хань — это попытка авторов Unicode и универсального набора символов сопоставить несколько наборов символов хань так называемых языков CJK в единый набор унифицированных символов . Символы хань являются общей чертой письменного китайского ( hanzi ), японского ( kanji ), корейского ( hanja ) и вьетнамского ( chữ Hán ) языков.

Современные китайские, японские и корейские шрифты обычно используют региональные или исторические варианты данного символа Хань . При формулировании Unicode была сделана попытка объединить эти варианты, рассматривая их как аллографы  – различные глифы, представляющие одну и ту же «графему» или орфографическую единицу – отсюда «унификация Хань», с полученным репертуаром символов, иногда сокращенным до Unihan . [1] [a]

Тем не менее, многие символы имеют региональные варианты, назначенные разным кодовым точкам , например, традиционный (U+500B) и упрощенный (U+4E2A).

Обоснование и противоречия

Стандарт Unicode детализирует принципы объединения Хань. [5] [6] За этот процесс отвечает Группа идеографических исследований (IRG), состоящая из экспертов из стран, говорящих на китайском языке, Северной и Южной Кореи, Японии, Вьетнама и других стран. [7]

Одним из обоснований было желание ограничить размер полного набора символов Unicode, где символы CJK, представленные дискретными идеограммами , могут приближаться или превышать 100 000 символов [b] . Версия 1 Unicode была разработана так, чтобы вписаться в 16 бит, и только 20 940 символов (32%) из возможных 65 536 были зарезервированы для этих унифицированных идеограмм CJK . Позднее Unicode был расширен до 21 бита, что позволило использовать гораздо больше символов CJK (назначено 97 680, с запасом для большего количества).

Статья, размещенная IBM, пытается проиллюстрировать часть мотивации объединения Хань: [8]

Проблема возникает из-за того, что Unicode кодирует символы, а не «глифы», которые являются визуальными представлениями символов. Существует четыре основных традиции для форм восточноазиатских символов: традиционный китайский, упрощенный китайский, японский и корейский. Хотя корень символа Хан может быть одинаковым для языков CJK, глифы, которые обычно используются для тех же символов, могут быть разными. Например, традиционный китайский глиф для «травы» использует четыре штриха для радикала «травы» [ ⺿ ], тогда как упрощенные китайские, японские и корейские глифы [ ] используют три. Но для символа травы существует только одна точка Unicode (U+8349) [] независимо от системы письма. Другим примером является идеограмма для «один», которая различается в китайском, японском и корейском языках. Многие считают, что эти три версии должны кодироваться по-разному.

Фактически, три идеограммы для «один» (,или) кодируются в Unicode отдельно, поскольку они не считаются национальными вариантами. Первая форма является общей во всех трех странах, в то время как вторая и третья используются на финансовых инструментах для предотвращения подделки (они могут считаться вариантами).

Однако объединение Хань также вызвало значительные споры, особенно среди японской общественности, которая, как и представители литературной общественности страны, имеет историю протестов против уничтожения исторически и культурно значимых вариантов. [9] [10] (См. Кандзи § Реформа орфографии и списки кандзи . Сегодня список символов, официально признанных для использования в именах собственных, продолжает расширяться скромными темпами.)

В 1993 году Японская ассоциация развития электронной промышленности (JEIDA) опубликовала брошюру под названием «未来の文字コード体系に私達は不安をもっています» (Мы с нетерпением ждем будущей системы кодирования символов JPNO  20985671), суммирование основной критики в адрес подход Ханьской унификации, принятый Unicode.

Графемы против глифов

У латинской строчной буквы " a " есть сильно различающиеся глифы, которые все представляют собой конкретные примеры одной и той же абстрактной графемы. Хотя носитель любого языка, использующего латинский алфавит, распознает эти два глифа как одну и ту же графему, другим они могут показаться совершенно не связанными.

Графема — это наименьшая абстрактная единица значения в системе письма. Любая графема имеет множество возможных выражений глифов, но все они распознаются как одна и та же графема теми, кто обладает навыками чтения и письма в определенной системе письма. Хотя Unicode обычно назначает символы кодовым точкам для выражения графем в системе письма, стандарт Unicode (раздел 3.4 D7) предупреждает:

Абстрактный символ не обязательно соответствует тому, что пользователь считает «символом», и его не следует путать с графемой .

—  Стандарт Unicode® версии 15.0 – Основная спецификация §3.4 Символы и кодировка

Однако эта цитата относится к тому факту, что некоторые графемы состоят из нескольких графических элементов или «символов». Так, например, символ U+0061 ЛАТИНСКАЯ СТРОЧНАЯ БУКВА A в сочетании с U+030A ◌̊ ОБЪЕДИНЯЮЩЕЕ КОЛЬЦО ВЫШЕ (генерирующее комбинацию «å») может быть понят пользователем как одна графема, хотя он состоит из нескольких абстрактных символов Unicode. Кроме того, Unicode также назначает некоторые кодовые точки небольшому количеству (кроме соображений совместимости) символов форматирования, пробельных символов и других абстрактных символов, которые не являются графемами, но вместо этого используются для управления разрывами между строками, словами, графемами и кластерами графем. С унифицированными идеографами Хан стандарт Unicode отходит от предыдущей практики назначения абстрактных символов не как графем, а в соответствии с основным значением графемы: то, что лингвисты иногда называют семемами . Таким образом, это отклонение объясняется не просто часто цитируемым различием между абстрактным символом и глифом, но больше коренится в различии между абстрактным символом, назначенным в качестве графемы, и абстрактным символом, назначенным в качестве семемы. В противоположность этому, рассмотрим унификацию пунктуации и диакритических знаков в ASCII , где графемы с совершенно разными значениями (например, апостроф и одинарная кавычка) унифицированы, поскольку глифы одинаковы. Для Unihan символы унифицированы не по внешнему виду, а по определению или значению.

Для графемы, представленной различными глифами, означает, что графема имеет вариации глифов, которые обычно определяются выбором того или иного шрифта или использованием функций замены глифов, когда несколько глифов включены в один шрифт. Такие вариации глифов рассматриваются Unicode как функция протоколов расширенного текста и не обрабатываются должным образом целями Unicode для простого текста. Однако, когда изменение одного глифа на другой представляет собой изменение одной графемы на другую — где глиф не может, например, по-прежнему означать ту же графему, понимаемую как строчная буква «a», — Unicode разделяет их на отдельные кодовые точки. Для Unihan то же самое делается всякий раз, когда изменяется абстрактное значение, однако вместо того, чтобы говорить об абстрактном значении графемы (буквы «a»), объединение идеограмм хань назначает новую кодовую точку для каждого различного значения — даже если это значение выражается различными графемами на разных языках. Хотя графема, такая как "ö", может означать что-то другое в английском языке (как используется в слове "coördinated"), чем в немецком языке (как используется в слове "schön"), это все еще одна и та же графема, и ее можно легко объединить, так что английский и немецкий могут использовать общую абстрактную латинскую систему письма (вместе с самой латынью). Этот пример также указывает на другую причину того, что "абстрактный символ" и графема как абстрактная единица в письменном языке не обязательно соответствуют друг другу. В английском языке объединяющая диэрезис , "¨", и "o", которую она модифицирует, могут рассматриваться как две отдельные графемы, тогда как в таких языках, как шведский, буква "ö" может рассматриваться как одна графема. Аналогично в английском языке точка над "i" понимается как часть графемы "i", тогда как в других языках, таких как турецкий, точка может рассматриваться как отдельная графема, добавленная к "ı" без точки .

Чтобы справиться с использованием различных графем для одной и той же семемы Unihan, Unicode опирается на несколько механизмов: особенно в том, что касается рендеринга текста. Один из них заключается в том, чтобы рассматривать это просто как проблему шрифта, чтобы разные шрифты могли использоваться для рендеринга китайского, японского или корейского языков. Кроме того, форматы шрифтов, такие как OpenType, позволяют отображать альтернативные глифы в соответствии с языком, чтобы система рендеринга текста могла смотреть на настройки среды пользователя, чтобы определить, какой глиф использовать. Проблема с этими подходами заключается в том, что они не соответствуют целям Unicode по определению последовательного способа кодирования многоязычного текста. [11]

Поэтому вместо того, чтобы рассматривать проблему как проблему богатого текста с альтернативами глифов, Unicode добавил концепцию селекторов вариаций , впервые представленную в версии 3.2 и дополненную в версии 4.0. [12] Хотя селекторы вариаций рассматриваются как комбинированные символы, они не имеют связанных с ними диакритических знаков или знаков. Вместо этого, объединяясь с базовым символом, они сигнализируют, что последовательность из двух символов выбирает вариацию (обычно с точки зрения графемы, но также и с точки зрения основного значения, как в случае названия местоположения или другого имени собственного) базового символа. Тогда это не выбор альтернативного глифа, а выбор вариации графемы или вариации базового абстрактного символа. Однако такая последовательность из двух символов может быть легко сопоставлена ​​с отдельным глифом в современных шрифтах. Поскольку Unicode назначил 256 отдельных селекторов вариаций, он способен назначить 256 вариаций для любого идеограммы хань. Такие вариации могут быть специфичны для того или иного языка и позволяют кодировать простой текст, включающий такие вариации графем.

Унихан "абстрактные персонажи"

Поскольку стандарт Unihan кодирует «абстрактные символы», а не «глифы», графические артефакты, создаваемые Unicode, считались временными техническими препятствиями и, в лучшем случае, косметическими. Однако, опять же, особенно в Японии, отчасти из-за того, как китайские иероглифы были включены в японские системы письма исторически, невозможность указать конкретный вариант считалась существенным препятствием для использования Unicode в научной работе. Например, унификация «травы» (объясненная выше) означает, что исторический текст не может быть закодирован так, чтобы сохранить его своеобразную орфографию. Вместо этого, например, ученому потребовалось бы найти нужный глиф в определенном шрифте, чтобы передать текст так, как он написан, что противоречит цели единого набора символов. Unicode отреагировал на эти потребности, назначив селекторы вариаций, чтобы авторы могли выбирать вариации графем определенных идеограмм (или даже других символов). [12]

Небольшие различия в графическом представлении также проблематичны, когда они влияют на читаемость или принадлежат к неправильной культурной традиции. Помимо того, что некоторые шрифты Unicode непригодны для использования в текстах, включающих несколько «языков Unihan», имена или другая орфографически чувствительная терминология могут отображаться неправильно. (Имена собственные, как правило, особенно орфографически консервативны — сравните это с изменением написания имени в соответствии с языковой реформой в США или Великобритании.) Хотя это можно считать в первую очередь проблемой графического представления или рендеринга, которую можно преодолеть с помощью более искусных шрифтов, широкое использование Unicode затруднит сохранение таких различий. Проблема одного символа, представляющего семантически разные концепции, также присутствует в латинской части Unicode. Символ Unicode для изогнутого апострофа такой же, как символ для правой одинарной кавычки ('). С другой стороны, заглавная латинская буква A не унифицирована с греческой буквой Α или кириллической буквой А. Это, конечно, желательно по соображениям совместимости и позволяет работать с гораздо меньшим набором алфавитных символов.

Хотя аспект унификации Unicode в некоторых кругах вызывает споры по указанным выше причинам, сам Unicode в настоящее время кодирует огромное количество редко используемых символов более или менее антикварного характера.

Некоторые противоречия проистекают из того факта, что само решение о проведении унификации Хань было принято первоначальным Консорциумом Unicode, который в то время был консорциумом североамериканских компаний и организаций (большинство из них находились в Калифорнии), [13] , но не включал представителей правительств Восточной Азии. Первоначальной целью разработки было создание 16-битного стандарта, [14] и поэтому унификация Хань была критически важным шагом для избежания десятков тысяч дубликатов символов. Это 16-битное требование было позже отменено, что сделало размер набора символов менее важной проблемой сегодня.

Позднее спор распространился на международно-представительную организацию ISO: первоначальная совместная исследовательская группа CJK (CJK-JRG) поддержала предложение (DIS 10646) о неунифицированном наборе символов, «которое было отклонено в пользу унификации с унифицированным набором символов Консорциума Unicode голосами американских и европейских членов ISO» (хотя позиция Японии была неясной). [15] Одобрение унификации Unicode Han было необходимым шагом для бурного слияния ISO 10646/Unicode.

Большая часть споров вокруг объединения Хань основана на различии между глифами , как определено в Unicode, и связанной, но отличной идеей графем. Unicode назначает абстрактные символы (графемы), в отличие от глифов, которые являются конкретным визуальным представлением символа в определенной гарнитуре шрифта . Один символ может быть представлен многими различными глифами, например, «g» или «a», оба из которых могут иметь одну петлю ( ɑ , ɡ ) или две ( a , g ). Тем не менее, для читателя языков на основе латинского алфавита обе вариации символа «a» распознаются как одна и та же графема. Графемы, присутствующие в национальных стандартах кодирования символов, были добавлены в Unicode, как того требует правило разделения источника Unicode, даже там, где они могут быть составлены из уже имеющихся символов. Национальные стандарты кодирования символов, существующие в языках CJK, значительно сложнее, учитывая технологические ограничения, в условиях которых они развивались, и поэтому официальные участники CJK в объединении Хань вполне могли поддаться реформам.

В отличие от европейских версий, шрифты CJK Unicode, из-за объединения Хань, имеют большие, но нерегулярные узоры перекрытия, требующие шрифтов, специфичных для языка. К сожалению, шрифты, специфичные для языка, также затрудняют доступ к варианту, который, как в примере с "grass", чаще встречается в другом языковом стиле. (То есть, было бы трудно получить доступ к "grass" с четырехстрочным радикалом, более типичным для традиционного китайского языка в японской среде, шрифты которой обычно отображают трехстрочный радикал.) Сторонники Unihan склонны отдавать предпочтение языкам разметки для определения языковых строк, но это не гарантирует использование определенного варианта в данном случае, только шрифт, специфичный для языка, с большей вероятностью отображает символ как этот вариант. (В этом месте вступают в дело чисто стилистические различия, поскольку выбор японских и китайских шрифтов, скорее всего, не будет визуально совместим.)

Китайские пользователи, похоже, имеют меньше возражений против объединения Хань, в основном потому, что Unicode не пытался объединить упрощенные китайские символы с традиционными китайскими символами . (Упрощенные китайские символы используются среди носителей китайского языка в Китайской Народной Республике , Сингапуре и Малайзии . Традиционные китайские символы используются в Гонконге и Тайване ( Big5 ), и они, с некоторыми различиями, более знакомы корейским и японским пользователям.) Unicode рассматривается как нейтральный в отношении этого политически окрашенного вопроса и кодирует упрощенные и традиционные китайские глифы отдельно (например, идеограмма для «отбросить» —U+4E1F для традиционного китайского Big5 #A5E1 иU+4E22 для упрощенного китайского GB #2210). Также отмечается, что традиционные и упрощенные символы должны кодироваться отдельно в соответствии с правилами объединения Хань Unicode, поскольку они различаются в уже существующих наборах символов КНР. Более того, как и в случае с другими вариантами, соответствие традиционных и упрощенных символов не является однозначным.

Альтернативы

Существует несколько альтернативных наборов символов, которые не кодируются в соответствии с принципом унификации Хань и, таким образом, свободны от его ограничений:

Эти региональные наборы символов также считаются не затронутыми объединением Хань из-за их региональной специфики:

Однако ни один из этих альтернативных стандартов не был принят так широко, как Unicode , который в настоящее время является базовым набором символов для многих новых стандартов и протоколов, принятых на международном уровне и встроенных в архитектуру операционных систем ( Microsoft Windows , Apple macOS и многих Unix-подобных систем), языков программирования ( Perl , Python , C# , Java , Common Lisp , APL , C , C++ ) и библиотек (IBM International Components for Unicode (ICU) вместе с механизмами рендеринга Pango , Graphite , Scribe , Uniscribe и ATSUI ), форматов шрифтов ( TrueType и OpenType ) и т. д.

В марте 1989 года система на основе (B)TRON была принята японской правительственной организацией «Центр образовательной вычислительной техники» в качестве системы выбора для школьного образования, включая обязательное образование . [16] Однако в апреле в отчете под названием «Национальный отчет по оценке торговли за 1989 год о барьерах в иностранной торговле» из Управления торгового представителя США эта система была конкретно указана как торговый барьер в Японии. В отчете утверждалось, что принятие японским правительством системы на основе TRON выгодно японским производителям и, таким образом, исключает американские операционные системы из огромного нового рынка; в частности, в отчете в качестве примеров приводятся MS-DOS, OS/2 и UNIX. Управление USTR якобы находилось под влиянием Microsoft, поскольку его бывшему сотруднику Тому Робертсону затем предложили прибыльную должность в Microsoft. [17] Хотя сама система TRON впоследствии была исключена из списка санкций разделом 301 Закона о торговле 1974 года после протестов организации в мае 1989 года, торговый спор заставил Министерство международной торговли и промышленности принять запрос от Масаёси Сона об отмене выбора Центром образовательной вычислительной техники системы на основе TRON для использования в учебных компьютерах. [18] Инцидент рассматривается как символическое событие потери импульса и окончательного упадка системы BTRON, что привело к широкому принятию MS-DOS в Японии и окончательному принятию Unicode с ее преемницей Windows.

Объединение всех эквивалентных персонажей

Не было никаких усилий для полной семантической унификации всех семантически связанных символов, хотя идея относилась бы к соответствующим пользователям восточноазиатских языков одинаково, независимо от того, пишут ли они на корейском, упрощенном китайском, традиционном китайском, японском кюдзитай , японском синдзитай или вьетнамском. Вместо того, чтобы некоторые варианты получали отдельные кодовые точки, в то время как другие группы вариантов должны были бы совместно использовать отдельные кодовые точки, все варианты могли бы быть надежно выражены только с помощью тегов метаданных (например, форматирование CSS на веб-страницах). Бремя ляжет на всех тех, кто использует разные версии,,,, независимо от того, вызвано ли это различие упрощением, международной вариативностью или внутринациональной вариативностью. Однако для некоторых платформ (например, смартфонов) устройство может поставляться только с одним предустановленным шрифтом. Системный шрифт должен принять решение о глифе по умолчанию для каждой кодовой точки, и эти глифы могут сильно отличаться, указывая на разные базовые графемы.

Следовательно, опора на языковую разметку по всем направлениям как на подход сопряжена с двумя основными проблемами. Во-первых, существуют контексты, в которых языковая разметка недоступна (коммиты кода, простой текст). Во-вторых, любое решение потребовало бы, чтобы каждая операционная система была предварительно установлена ​​со многими глифами для семантически идентичных символов, которые имеют много вариантов. В дополнение к стандартным наборам символов в упрощенном китайском, традиционном китайском, корейском, вьетнамском, японском кюдзитай и японском синдзитай, существуют также «древние» формы символов, которые представляют интерес для историков, лингвистов и филологов.

База данных Unicode Unihan уже нарисовала связи между многими символами. База данных Unicode каталогизирует связи между вариантными символами с различными кодовыми точками. Однако для символов с общей кодовой точкой эталонное изображение глифа обычно смещено в сторону традиционной китайской версии. Кроме того, решение о том, следует ли классифицировать пары как семантические варианты или z-варианты, не всегда последовательно или ясно, несмотря на рационализации в руководстве. [19]

Так называемые семантические варианты(U+4E1F) и(U+4E22) являются примерами, которые Unicode приводит как существенно отличающиеся в своих абстрактных формах, в то время как Unicode перечисляетикак z-варианты, отличающиеся только стилем шрифта. Парадоксально, но Unicode считаетипочти идентичными z-вариантами, в то же время классифицируя их как существенно различные семантические варианты. Существуют также случаи, когда некоторые пары символов одновременно являются семантическими вариантами, специализированными семантическими вариантами и упрощенными вариантами:(U+500B) и(U+4E2A). Существуют случаи невзаимной эквивалентности. Например, запись базы данных Unihan для(U+4E80) считает(U+9F9C) своим z-вариантом, но запись дляне указываеткак z-вариант, хотя, очевидно, уже был в базе данных на момент написания записи для亀.

Некоторые канцелярские ошибки привели к дублированию полностью идентичных символов, таких как(U+FA23) и 𧺯 (U+27EAF). Если в шрифте есть глифы, закодированные в обеих точках, так что для обоих используется один шрифт, они должны выглядеть одинаково. Эти случаи перечислены как z-варианты, несмотря на отсутствие каких-либо различий. Намеренно дублированные символы были добавлены для облегчения побитового преобразования туда-обратно . Поскольку преобразование туда-обратно было ранним преимуществом Unicode, это означало, что если используемый национальный стандарт без необходимости дублировал символ, Unicode должен был сделать то же самое. Unicode называет эти намеренные дублирования « вариантами совместимости », как в случае с 漢 (U+FA9A), который называет(U+6F22) своим вариантом совместимости. Пока приложение использует один и тот же шрифт для обоих, они должны выглядеть одинаково. Иногда, как в случае сс U+8ECA и U+F902, добавленный символ совместимости перечисляет уже существующую версиюкак ее вариант совместимости и ее z-вариант. Поле варианта совместимости переопределяет поле z-варианта, принудительно выполняя нормализацию во всех формах, включая каноническую эквивалентность. Несмотря на название, варианты совместимости на самом деле канонически эквивалентны и объединены в любой схеме нормализации Unicode, а не только в нормализации совместимости. Это похоже на то, как U+212B Å ЗНАК АНГСТРОМА канонически эквивалентен предварительно составленной U+00C5 Å ЛАТИНСКОЙ ЗАГЛАВНОЙ БУКВЕ A С КОЛЬЦОМ НАД НИМИ . Многие программы (например, программа MediaWiki, на которой размещена Wikipedia) заменяют все канонически эквивалентные символы, которые не приветствуются (например, символ ангстрема), на рекомендуемый эквивалент. Несмотря на название, «варианты совместимости» CJK являются канонически эквивалентными символами, а не символами совместимости.

漢 (U+FA9A) был добавлен в базу данных позже, чем(U+6F22), и его запись информирует пользователя о совместимости. С другой стороны,(U+6F22) не имеет этой эквивалентности, указанной в этой записи. Unicode требует, чтобы все записи, однажды принятые, не могли изменить совместимость или эквивалентность, так что правила нормализации для уже существующих символов не меняются.

Некоторые пары Traditional и Simplified также считаются семантическими вариантами. Согласно определениям Unicode, имеет смысл, что все упрощения (которые не приводят к объединению совершенно разных символов для их омофонии) будут формой семантического варианта. Unicode классифицируетикак соответствующие традиционные и упрощенные варианты друг друга, а также как семантические варианты друг друга. Однако, в то время как Unicode классифицирует(U+5104) и亿(U+4EBF) как соответствующие традиционные и упрощенные варианты друг друга, Unicode не считаети亿семантическими вариантами друг друга.

Unicode утверждает, что «в идеале в стандарте Unicode не должно быть пар z-вариантов». [19] Это создало бы впечатление, что цель состоит в том, чтобы по крайней мере унифицировать все второстепенные варианты, избыточности совместимости и случайные избыточности, оставив дифференциацию шрифтам и языковым тегам. Это противоречит заявленной цели Unicode — убрать эти накладные расходы и разрешить любому количеству любых мировых скриптов находиться в одном документе с одной системой кодирования. [ неправильный синтез? ] В первой главе руководства говорится, что «С Unicode индустрия информационных технологий заменила множащиеся наборы символов на стабильность данных, глобальную совместимость и обмен данными, упрощенное программное обеспечение и сниженные затраты на разработку. Принимая набор символов ASCII за отправную точку, стандарт Unicode выходит далеко за рамки ограниченной возможности ASCII кодировать только заглавные и строчные буквы от A до Z. Он обеспечивает возможность кодировать все символы, используемые в письменных языках мира — можно кодировать более 1 миллиона символов. Для указания любого символа на любом языке не требуется управляющей последовательности или управляющего кода. Кодировка символов Unicode рассматривает алфавитные символы, идеографические символы и символы одинаково, что означает, что их можно использовать в любой смеси и с равной легкостью». [11]

Это оставляет возможность остановиться на одной унифицированной справочной графеме для всех z-вариантов, что является спорным, поскольку мало кто за пределами Японии признаетиэквивалентными. Даже в Японии варианты находятся по разные стороны от крупного упрощения, называемого Shinjitai. Unicode фактически сделал бы упрощение КНР(U+4FA3) и(U+4FB6) монументальным различием по сравнению. Такой план также устранил бы очень визуально различные вариации для таких символов, как(U+76F4) и(U+96C7).

Можно было бы ожидать, что все упрощенные символы одновременно будут также z-вариантами или семантическими вариантами со своими традиционными аналогами, но многие из них не являются ни тем, ни другим. Проще объяснить странный случай, когда семантические варианты могут быть одновременно и семантическими вариантами, и специализированными вариантами, когда определение Unicode заключается в том, что специализированные семантические варианты имеют одинаковое значение только в определенных контекстах. Языки используют их по-разному. Пара, символы которой являются 100%-ными заменами друг друга в японском языке, может быть не такой гибкой в ​​китайском языке. Таким образом, любое всеобъемлющее слияние рекомендуемых кодовых точек должно будет поддерживать некоторые варианты, которые отличаются лишь немного по внешнему виду, даже если значение на 100% одинаково для всех контекстов в одном языке, потому что в другом языке два символа могут не быть 100%-ными заменами.

Примеры глифов, зависящих от языка

В каждой строке следующей таблицы один и тот же символ повторяется во всех шести столбцах. Однако каждый столбец помечен (атрибутом lang) как относящийся к другому языку: китайский ( упрощенный и два типа традиционного ), японский , корейский или вьетнамский . Браузер должен выбрать для каждого символа глиф (из шрифта), подходящий для указанного языка. (Помимо фактического изменения символов — ищите различия в порядке штрихов, количестве или направлении — шрифты также могут отражать различные типографские стили, как в алфавитах с засечками и без засечек.) Это работает только для резервного выбора глифа, если в вашей системе установлены шрифты CJK, а шрифт, выбранный для отображения этой статьи, не включает глифы для этих символов.

Ни один из вариантов символов, присущих только корейскому или вьетнамскому языкам, не получил собственной кодовой точки, в то время как почти все варианты японского языка синдзитай или упрощенного китайского языка имеют отдельные кодовые точки и однозначные справочные глифы в стандарте Unicode.

В двадцатом веке страны Восточной Азии создали свои собственные стандарты кодирования. В каждом стандарте сосуществовали варианты с различными кодовыми точками, отсюда и различные кодовые точки в Unicode для определенных наборов вариантов. Если взять в качестве примера упрощенный китайский, то два варианта символов(U+5167) и(U+5185) отличаются точно так же, как корейский и некорейский варианты(U+5168). Каждый соответствующий вариант первого символа имеет либо(U+5165), либо(U+4EBA). Каждый соответствующий вариант второго символа имеет либо(U+5165), либо(U+4EBA). Оба варианта первого символа получили свои собственные различные кодовые точки. Однако два варианта второго символа должны были использовать одну и ту же кодовую точку.

Unicode оправдывает это тем, что национальный орган по стандартизации в КНР создал отдельные кодовые точки для двух вариантов первого символа/, тогда как Корея никогда не создавала отдельные кодовые точки для разных вариантов. Для этого есть причина, которая не имеет ничего общего с тем, как внутренние органы рассматривают сами символы. Китай прошел через процесс в двадцатом веке, который изменил (если не упростил) несколько символов. Во время этого перехода возникла необходимость иметь возможность кодировать оба варианта в одном документе. Корейский язык всегда использовал вариантс радикалом(U+5165) наверху. Поэтому у него не было причин кодировать оба варианта. Документы на корейском языке, созданные в двадцатом веке, имели мало причин представлять обе версии в одном документе.

Почти все варианты, разработанные или стандартизированные КНР, получили отдельные кодовые точки просто благодаря удаче перехода на упрощенный китайский язык, перешедшего в компьютерную эпоху. Однако эта привилегия, похоже, применяется непоследовательно, тогда как большинство упрощений, выполненных в Японии и материковом Китае с кодовыми точками в национальных стандартах, включая символы, упрощенные по-разному в каждой стране, попали в Unicode в качестве отдельных кодовых точек.

Шестьдесят два символа Shinjitai "упрощенного" языка с различными кодовыми точками в Японии были объединены с их традиционными эквивалентами Kyūjitai, такими как. [ необходима цитата ] Это может вызвать проблемы для стратегии языковых тегов. Не существует универсального тега для традиционной и "упрощенной" версий японского языка, как для китайского. Таким образом, любой японский писатель, желающий отобразить форму Kyūjitai для海, может быть вынужден пометить символ как "традиционный китайский" или довериться тому, что японский шрифт получателя использует только глифы Kyūjitai, но теги традиционного китайского и упрощенного китайского могут быть необходимы для отображения двух форм рядом в японском учебнике. Однако это помешало бы использовать один и тот же шрифт для всего документа. Дляв Unicode есть две различные кодовые точки, но только по "причинам совместимости". Любой шрифт, совместимый с Unicode, должен отображать эквивалентные кодовые точки версий Kyūjitai и Shinjitai в Unicode как одинаковые. Неофициально шрифт может отображатьпо-разному: 海 (U+6D77) — версия Shinjitai, а 海 (U+FA45) — версия Kyūjitai (которая идентична традиционной версии в письменном китайском и корейском языках).

Радикальный(U+7CF8) используется в таких символах, как/, с двумя вариантами, второй формой является просто курсивная форма. Радикальные компоненты(U+7D05) и(U+7EA2) семантически идентичны, и глифы отличаются только в последнем, используя курсивную версию компонента. Однако в материковом Китае органы стандартизации хотели стандартизировать курсивную форму при использовании в таких символах, как. Поскольку это изменение произошло сравнительно недавно, был переходный период. И(U+7D05), и(U+7EA2) получили отдельные кодовые точки в органах стандартов кодирования текста КНР, поэтому документы на китайском языке могли использовать обе версии. Два варианта получили отдельные кодовые точки и в Unicode.

Случай с радикалом(U+8278) доказывает, насколько произвольно положение дел. При использовании для составления символов, таких как(U+8349), радикал располагался наверху, но имел две разные формы. Традиционный китайский и корейский языки используют версию из четырех черт. В верхней частидолжно быть что-то похожее на два знака плюс ( ⺿ ). Упрощенный китайский, японский язык кюдзитай и японский язык синдзитай используют версию из трех черт, например, два знака плюс, разделяющие свои горизонтальные черты ( , т.е.). Текстовые коды КНР не кодировали эти два варианта по-разному. Тот факт, что почти все другие изменения, внесенные КНР, какими бы незначительными они ни были, действительно требовали собственной кодовой точки, говорит о том, что это исключение могло быть непреднамеренным. Unicode скопировал существующие стандарты как есть, сохранив такие неровности.

Консорциум Unicode признал ошибки в других случаях. Бесчисленные блоки Unicode для идеографий CJK Han имеют избыточность в исходных стандартах, избыточность, вызванную некорректным импортом исходных стандартов, а также случайные слияния, которые позже исправляются, создавая прецедент для разъединения символов.

Для носителей языка варианты могут быть непонятными или неприемлемыми в образовательном контексте. Носители английского языка могут понять рукописную записку с надписью «4P5 кг» как «495 кг», но написание девятки наоборот (так, чтобы она выглядела как «P») может быть резким и будет считаться неправильным в любой школе. Аналогично для пользователей одного языка CJK, читающих документ с «иностранными» глифами: вариантымогут отображаться как зеркальные отражения,могут отсутствовать штрих/иметь лишний штрих, аможет быть нечитаемым для неяпонских людей. (В Японии принимаются оба варианта).

Примеры некоторых неунифицированных ханьских идеограмм

В некоторых случаях, часто там, где изменения наиболее заметны, Unicode закодировал варианты символов, что делает ненужным переключение между шрифтами или langатрибутами. Однако некоторые варианты с, возможно, минимальными различиями получают отдельные кодовые точки, и не каждый вариант с, возможно, существенными изменениями получает уникальную кодовую точку. В качестве примера возьмем такой символ, как(U+5165), для которого единственный способ отобразить варианты — это изменить шрифт (или langатрибут), как описано в предыдущей таблице. С другой стороны, для(U+5167) вариант(U+5185) получает уникальную кодовую точку. Для некоторых символов, таких как/(U+514C/U+5151), любой из методов может использоваться для отображения различных глифов. В следующей таблице каждая строка сравнивает варианты, которым были назначены различные кодовые точки. Для краткости отметим, что варианты синдзитай с разными компонентами обычно (и неудивительно) принимают уникальные кодовые точки (например,氣/気). Они не будут здесь появляться, как и упрощенные китайские иероглифы, которые принимают последовательно упрощенные радикальные компоненты (например,/,/). [3] Этот список не является исчерпывающим.

База данных идеографических вариаций (IVD)

Для решения проблем, вызванных объединением Хань, был создан технический стандарт Unicode, известный как База данных идеографических вариаций Unicode, призванный решить проблему указания конкретного глифа в среде обычного текста. [20] Регистрируя коллекции глифов в Базе данных идеографических вариаций (IVD), можно использовать селекторы идеографических вариаций для формирования Последовательности идеографических вариаций (IVS) для указания или ограничения соответствующего глифа при обработке текста в среде Unicode.

Диапазоны Unicode

Идеографические символы, назначенные Unicode, появляются в следующих блоках:

Unicode включает поддержку радикалов, штрихов, знаков препинания, знаков и символов CJKV в следующих блоках:

В этих блоках появляются дополнительные символы совместимости (использование которых не рекомендуется):

Эти символы совместимости (за исключением двенадцати унифицированных идеографов в блоке CJK Compatibility Ideographs) включены для совместимости с устаревшими системами обработки текста и другими устаревшими наборами символов. Они включают формы символов для вертикальной компоновки текста и символы форматированного текста, которые Unicode рекомендует обрабатывать другими способами.

Международные идеограммы Core

International Ideographs Core (IICore) — это подмножество 9810 идеографов, полученных из таблиц CJK Unified Ideographs, разработанных для внедрения в устройства с ограниченной памятью, возможностями ввода/вывода и/или приложениями, где использование полного репертуара идеографов ISO 10646 невозможно. В текущем стандарте 9810 символов. [22]

Файлы базы данных Unihan

Проект Unihan всегда прилагал усилия для того, чтобы сделать доступной свою базу данных сборок. [2]

Проект libUnihan предоставляет нормализованную базу данных SQLite Unihan и соответствующую библиотеку C. [23] Все таблицы в этой базе данных находятся в пятой нормальной форме . libUnihan выпущена под лицензией LGPL , в то время как ее база данных UnihanDb выпущена под лицензией MIT .

Смотрите также

Примечания

  1. ^ Unihan может также ссылаться на базу данных Unihan, поддерживаемую Консорциумом Unicode , которая предоставляет информацию обо всех унифицированных символах Хан, закодированных в стандарте Unicode, включая сопоставления с различными национальными и отраслевыми стандартами, индексы в стандартных словарях, закодированные варианты, произношения на разных языках и определение на английском языке. База данных доступна для общественности в виде текстовых файлов [2] и через интерактивный веб-сайт. [3] [4] Последний также включает в себя репрезентативные глифы и определения для сложных слов, взятые из бесплатных проектов словарей японского EDICT и китайского CEDICT (которые предоставляются для удобства и не являются формальной частью стандарта Unicode).
  2. ^ Большинство из них являются устаревшими и неактуальными символами, однако, поскольку цель Unicode — кодировать каждую систему письма, которая используется или когда-либо использовалась, для того, чтобы считаться грамотной, достаточно всего 2000–3000 символов.

Ссылки

  1. ^ "Приложение № 38 к стандарту Unicode® | БАЗА ДАННЫХ UNICODE HAN (UNIHAN)". Консорциум Unicode . 2023-09-01.
  2. ^ ab "Unihan.zip". Стандарт Unicode . Консорциум Unicode.
  3. ^ ab "Поиск в базе данных Unihan". Стандарт Unicode . Консорциум Unicode.
  4. ^ "Поиск в базе данных Unihan: пример поиска для 中". Стандарт Unicode . Консорциум Unicode.
  5. ^ "Глава 18: Восточная Азия, принципы объединения Хань". Стандарт Unicode . Консорциум Unicode.
  6. Уистлер, Кен (25 октября 2010 г.). «Техническое примечание Unicode 26: О кодировании латиницы, греческого, кириллицы и ханьского алфавитов».
  7. ^ "История объединения Хань". Стандарт Unicode . Консорциум Unicode.
  8. ^ "Тайная жизнь Unicode". IBM . 2013-12-16. Архивировано из оригинала 2013-12-16 . Получено 2023-09-30 .
  9. ^ Возвращение к Unicode Стивен Дж. Сирл; веб-мастер, TRON Web
  10. ^ "IVD/IVS とは - 文字情報基盤整備事業" . mojikiban.ipa.go.jp .
  11. ^ ab "Глава 1: Введение". Стандарт Unicode . Консорциум Unicode.
  12. ^ ab «База данных идеографических вариаций». Консорциум Unicode.
  13. ^ «Ранние годы Unicode». Консорциум Unicode.
  14. ^ Беккер, Джозеф Д. (1998-08-29). "Unicode 88" (PDF) .
  15. ^ "Unicode в Японии: руководство по технической и психологической борьбе". Архивировано из оригинала 27-06-2009.{{cite web}}: CS1 maint: unfit URL (link)
  16. ^ 小林紀興『松下電器の果し状』1 фото
  17. Крикке, Ян (15 октября 2003 г.). «Самая популярная операционная система в мире». LinuxInsider.com .
  18. ^ 大下英治 『孫正義 起業の若き獅子』(ISBN 4-06-208718-9)стр. 285-294 
  19. ^ ab «UAX # 38: База данных Unicode Han (Unihan)» . www.unicode.org .
  20. ^ "UTS #37: База данных идеографических вариаций Unicode". www.unicode.org .
  21. ^ "УРО". ccjktype.fonts.adobe.com .
  22. ^ "OGCIO: Область загрузки: Утилита сравнения International Ideographs Core (IICORE)". www.ogcio.gov.hk .
  23. ^ Чэнь, Дин-И. "libUnihan - Библиотека для базы данных символов Unihan в пятой нормальной форме". libunihan.sourceforge.net .