Ханьское объединение

Различия для одного и того же кода Юникода (U+8FD4) в региональных версиях Source Han Sans

Эта статья содержит специальные символы . Без надлежащей поддержки рендеринга вы можете увидеть вопросительные знаки, прямоугольники и другие символы .

Унификация хань — это попытка авторов Юникода и универсального набора символов сопоставить несколько наборов символов хань так называемых языков CJK в единый набор унифицированных символов . Символы хань — это общая черта письменности китайского ( ханзи ), японского ( кандзи ), корейского ( ханджа ) и вьетнамского языков ( чо хан ).

В современных китайских, японских и корейских шрифтах обычно используются региональные или исторические варианты данного ханьского символа . При разработке Юникода была предпринята попытка объединить эти варианты, рассматривая их как аллографы — разные глифы , представляющие одну и ту же «графему» или орфографическую единицу — отсюда и «унификация Хань», в результате чего репертуар символов иногда сокращался до Унихана . ^[1]^[а]

Тем не менее, многие символы имеют региональные варианты, присвоенные разным кодовым точкам , например традиционный 個(U+500B) и упрощенный 个(U+4E2A).

Обоснование и противоречия

Стандарт Unicode подробно описывает принципы объединения Хань. ^[5]^[6] За этот процесс отвечает Группа идеографических исследований (IRG), состоящая из экспертов из китайскоязычных стран, Северной и Южной Кореи, Японии, Вьетнама и других стран.

Одним из объяснений было желание ограничить размер полного набора символов Юникода, где символы CJK, представленные дискретными идеограммами , могут приближаться к 100 000 ^[b] символов или превышать их. Версия 1 Unicode была разработана с учетом 16 бит, и только 20 940 символов (32%) из возможных 65 536 были зарезервированы для этих унифицированных иероглифов CJK . Позже Unicode был расширен до 21 бита, что позволило использовать гораздо больше символов CJK (назначено 97 680, и есть место для большего количества).

Статья, размещенная IBM, пытается проиллюстрировать часть мотивации объединения Хань: ^[7]

Проблема связана с тем, что Unicode кодирует символы, а не «глифы», которые являются визуальным представлением символов. Существует четыре основные традиции восточноазиатских форм иероглифов: традиционный китайский, упрощенный китайский, японский и корейский. Хотя корневой символ хань может быть одинаковым для языков CJK, общеупотребительные глифы для одних и тех же символов могут быть разными. Например, традиционный китайский иероглиф «трава» использует четыре штриха для радикала «трава» [ ⺿ ], тогда как упрощенные китайские, японские и корейские глифы [ ⺾ ] используют три. Но для символа травы есть только одна точка Unicode (U + 8349) [草], независимо от системы письма. Другой пример — иероглиф «один», который различается в китайском, японском и корейском языках. Многие думают, что эти три версии должны быть закодированы по-разному.

Фактически, три идеограммы «одного» (一,壹или壱) кодируются в Юникоде отдельно, поскольку они не считаются национальными вариантами. Первая форма является общей во всех трех странах, а вторая и третья используются в финансовых инструментах для предотвращения фальсификации (их можно рассматривать как варианты).

Однако объединение Хань также вызвало серьезные споры, особенно среди японской общественности, которая, как и литераторы страны, имеет историю протеста против исключения исторически и культурно значимых вариантов. ^[8]^[9] (См. Кандзи § Орфографическая реформа и списки кандзи . Сегодня список символов, официально признанных для использования в именах собственных, продолжает расширяться скромными темпами.)

В 1993 году Японская ассоциация развития электронной промышленности (JEIDA) опубликовала брошюру под названием «未来の文字コード体系に私達は不安をもっています» (Мы с нетерпением ждем будущей системы кодирования символов JPNO 20985671), сумма выдвигая серьезную критику в адрес подход Ханьской унификации, принятый Unicode.

Графемы против глифов

Латинская строчная буква « а » имеет совершенно разные глифы, которые представляют собой конкретные экземпляры одной и той же абстрактной графемы. Хотя носитель языка, использующего латиницу, воспринимает эти два глифа как одну и ту же графему, другим они могут показаться совершенно несвязанными.

Графема — это наименьшая абстрактная единица значения в системе письма. Любая графема имеет множество возможных выражений глифов, но все они распознаются как одна и та же графема теми, кто владеет навыками чтения и письма в определенной системе письма. Хотя Unicode обычно присваивает символы кодовым точкам для выражения графем в системе письма, стандарт Unicode (раздел 3.4 D7) предупреждает:

Абстрактный символ не обязательно соответствует тому, что пользователь считает «символом», и его не следует путать с графемой .
— Стандарт Unicode® версии 15.0 – Основная спецификация §3.4 Символы и кодировка

Однако эта цитата относится к тому факту, что некоторые графемы состоят из нескольких графических элементов или «символов». Так, например, символ U+0061 — ЛАТИНСКАЯ СТРОЧНАЯ БУКВА A в сочетании с U+030A ◌̊ ОБЪЕДИНЯЮЩЕЕ КОЛЬЦО ВЫШЕ (генерируя комбинацию «å») может быть понят пользователем как одна графема, состоящая из нескольких абстрактных символов Юникода. персонажи. Кроме того, Unicode также присваивает некоторые кодовые точки небольшому количеству (за исключением соображений совместимости) символов форматирования, символов пробелов и других абстрактных символов, которые не являются графемами, а вместо этого используются для управления разрывами между строками, словами, графемами и графемные кластеры. Благодаря унифицированным иероглифам Хань стандарт Юникода отходит от прежней практики присвоения абстрактных символов не как графем, а в соответствии с основным значением графемы: то, что лингвисты иногда называют семемами . Таким образом, это отклонение объясняется не просто часто цитируемым различием между абстрактным символом и глифом, но в большей степени коренится в различии между абстрактным символом, назначенным в качестве графемы, и абстрактным символом, назначенным в качестве семемы. Напротив, рассмотрим объединение знаков препинания и диакритических знаков ASCII , где графемы с совершенно разными значениями (например, апостроф и одинарная кавычка) объединены, поскольку глифы одинаковы. Для Унихана персонажи едины не по внешнему виду, а по определению или значению.

Представление графемы различными глифами означает, что графема имеет варианты глифов, которые обычно определяются путем выбора того или иного шрифта или использования функций замены глифов, когда несколько глифов включены в один шрифт. Такие варианты глифов рассматриваются в Unicode как особенность протоколов форматированного текста и не учитываются должным образом в целях обычного текста Unicode. Однако, когда переход от одного глифа к другому представляет собой переход от одной графемы к другой - когда глиф не может, например, по-прежнему означать ту же самую графему, понимаемую как строчную букву «а», - Unicode разделяет их на отдельные кодовые точки. Для Унихана то же самое делается всякий раз, когда меняется абстрактное значение, однако вместо того, чтобы говорить об абстрактном значении графемы (буквы «а»), унификация ханьских иероглифов присваивает новую кодовую точку каждому различному значению — даже если это Значение выражается различными графемами на разных языках. Хотя графема, такая как «ö», может означать что-то другое во французском языке (как используется в слове Noël ), чем в немецком (как используется в слове Österreich ), это все же одна и та же графема, и ее можно легко унифицировать, чтобы английский язык и немецкий язык может иметь общую абстрактную латинскую систему письма (наряду с самой латынью). Этот пример также указывает на другую причину, по которой «абстрактный символ» и графема как абстрактная единица письменного языка не обязательно соответствуют друг другу. В английском языке сочетание диэрезиса «¨» и изменяемой им буквы «о» можно рассматривать как две отдельные графемы, тогда как в таких языках, как шведский, буква «ö» может рассматриваться как одна графема. Точно так же в английском языке точка на букве «i» понимается как часть графемы «i», тогда как в других языках, например, в турецком, точку можно рассматривать как отдельную графему, добавленную к лишенной точки «ı» .

Чтобы справиться с использованием разных графем для одной и той же семемы Унихана, Unicode использовал несколько механизмов: особенно в том, что касается рендеринга текста. Один из них заключался в том, чтобы рассматривать это просто как проблему со шрифтами, чтобы можно было использовать разные шрифты для отображения китайского, японского или корейского языка. Кроме того, такие форматы шрифтов, как OpenType, позволяют отображать альтернативные глифы в зависимости от языка, чтобы система рендеринга текста могла учитывать настройки среды пользователя, чтобы определить, какой глиф использовать. Проблема с этими подходами заключается в том, что они не соответствуют целям Unicode по определению последовательного способа кодирования многоязычного текста. ^[10]

Поэтому вместо того, чтобы рассматривать эту проблему как проблему форматированного текста с альтернативными глифами, Unicode добавил концепцию селекторов вариантов , впервые представленную в версии 3.2 и дополненную в версии 4.0. ^[11] Хотя селекторы вариантов рассматриваются как комбинированные символы, они не имеют связанного диакритического знака или знака. Вместо этого, объединяясь с базовым символом, они сигнализируют, что последовательность двух символов выбирает вариант (обычно с точки зрения графемы, но также и с точки зрения основного значения, как в случае названия места или другого имени собственного) базового символа. Тогда это не выбор альтернативного глифа, а выбор вариации графемы или вариации базового абстрактного символа. Однако такую последовательность двух символов можно легко сопоставить с отдельным глифом в современных шрифтах. Поскольку Unicode назначил 256 отдельных селекторов вариантов, он способен назначить 256 вариантов для любого иероглифа Хань. Такие варианты могут быть специфичными для того или иного языка и позволяют кодировать простой текст, включающий такие варианты графем.

Унихан «абстрактные персонажи»

Поскольку стандарт Unihan кодирует «абстрактные символы», а не «глифы», графические артефакты, создаваемые Unicode, считаются временными техническими препятствиями и, в лучшем случае, косметическими. Однако, опять же, особенно в Японии, отчасти из-за того, как исторически китайские иероглифы были включены в японские системы письма, невозможность указать конкретный вариант считалась серьезным препятствием для использования Unicode в научной работе. Например, объединение слова «трава» (объясненное выше) означает, что исторический текст не может быть закодирован так, чтобы сохранить его особую орфографию. Вместо этого, например, ученому придется найти нужный глиф в определенном шрифте, чтобы передать текст в том виде, в котором он написан, что противоречит цели единого набора символов. Unicode отреагировал на эти потребности, назначив селекторы вариантов, чтобы авторы могли выбирать варианты графем определенных иероглифов (или даже других символов). ^[11]

Небольшие различия в графическом представлении также создают проблемы, когда они влияют на разборчивость или принадлежат неправильной культурной традиции. Помимо того, что некоторые шрифты Unicode станут непригодными для использования в текстах, включающих несколько «языков Unihan», имена или другая орфографически чувствительная терминология может отображаться неправильно. (Имена собственные, как правило, особенно орфографически консервативны — сравните это с изменением написания имени в соответствии с языковой реформой в США или Великобритании.) Хотя это можно рассматривать в первую очередь как проблему графического представления или рендеринга, которую необходимо преодолеть с помощью более искусных шрифтов. , широкое использование Unicode затруднит сохранение таких различий. Проблема одного символа, обозначающего семантически разные понятия, присутствует и в латинской части Юникода. Символ Юникода для изогнутого апострофа аналогичен символу правой одинарной кавычки ('). С другой стороны, заглавная латинская буква А не унифицирована с греческой буквой Α или кириллической буквой А. Это, конечно, желательно из соображений совместимости и касается гораздо меньшего набора буквенных символов.

Хотя аспект унификации Unicode вызывает споры в некоторых кругах по причинам, указанным выше, сам Unicode теперь кодирует огромное количество редко используемых символов более или менее антикварного характера.

Некоторые разногласия возникают из-за того, что само решение об объединении Хань было принято первоначальным Консорциумом Unicode, который в то время представлял собой консорциум североамериканских компаний и организаций (большинство из них в Калифорнии), [12] ^но включавший нет представителей правительств Восточной Азии. Первоначальной целью разработки было создание 16-битного стандарта ^[13] , поэтому унификация Хана стала решающим шагом для предотвращения десятков тысяч дублирований символов. Позже от этого 16-битного требования отказались, что сделало размер набора символов менее проблемой сегодня.

Позже спор распространился на международный стандарт ISO: первоначальная Объединенная исследовательская группа CJK (CJK-JRG) поддержала предложение (DIS 10646) о неунифицированном наборе символов, «которое было отвергнуто в пользу унификации с унифицированным набором символов Консорциума Unicode». характер, установленный голосами американских и европейских членов ИСО» (хотя позиция Японии была неясна). ^[14] Одобрение унификации Unicode Han было необходимым шагом для бурного слияния ISO 10646 и Unicode.

Большая часть споров вокруг объединения Хань основана на различии между глифами , как они определены в Юникоде, и связанной с ними, но отличной идеей графем. Юникод присваивает абстрактные символы (графемы) в отличие от глифов, которые представляют собой особые визуальные представления символа в определенной гарнитуре . Один символ может быть представлен множеством различных глифов, например «g» или «a», оба из которых могут иметь одну петлю ( ɑ , ɡ ) или две ( a , g ). Тем не менее, для читателя языков, основанных на латинице, оба варианта символа «а» воспринимаются как одна и та же графема. Графемы, присутствующие в национальных стандартах кодировки символов, были добавлены в Unicode, как того требует правило разделения исходных кодов Unicode, даже если они могут состоять из уже доступных символов. Национальные стандарты кодировки символов, существующие в языках CJK, значительно более сложны, учитывая технологические ограничения, в условиях которых они развивались, и поэтому официальные участники CJK в объединении Хань вполне могли поддаться реформированию.

В отличие от европейских версий, шрифты CJK Unicode из-за унификации Хань имеют большие, но неравномерные узоры перекрытия, что требует использования шрифтов, специфичных для языка. К сожалению, шрифты, специфичные для языка, также затрудняют доступ к варианту, который, как и в случае с «травой», чаще встречается в другом языковом стиле. (То есть было бы трудно получить доступ к «траве» с помощью четырехстрочного радикала, более типичного для традиционного китайского языка в японской среде, где шрифты обычно изображают трехстрочный радикал.) Сторонники унихана склонны отдавать предпочтение языкам разметки. для определения языковых строк, но это не гарантирует использование определенного варианта в данном случае, а только шрифт, специфичный для языка, с большей вероятностью будет отображать символ как этот вариант. (На этом этапе имеют место лишь стилистические различия, поскольку некоторые японские и китайские шрифты вряд ли будут визуально совместимы.)

Китайские пользователи, похоже, имеют меньше возражений против объединения ханьских символов, в основном потому, что Unicode не пытался объединить символы упрощенного китайского языка с символами традиционного китайского языка . (Упрощенные китайские иероглифы используются носителями китайского языка в Китайской Народной Республике , Сингапуре и Малайзии . Традиционные китайские иероглифы используются в Гонконге и Тайване ( большая пятерка ), и они, с некоторыми отличиями, более знакомы корейским и японским пользователям. ) Юникод считается нейтральным по отношению к этому политически окрашенному вопросу и кодирует глифы упрощенного и традиционного китайского языка отдельно (например, иероглиф «выбросить» — 丟U +4E1F для традиционного китайского Big5 #A5E1 и丢U+4E22 для упрощенного китайского языка). ГБ № 2210). Также отмечается, что традиционные и упрощенные символы должны кодироваться отдельно в соответствии с правилами Unicode Han Unification, поскольку они различаются в уже существующих наборах символов PRC. Более того, как и в других вариантах, символы от традиционного к упрощенному не являются однозначными.

Альтернативы

Существует несколько альтернативных наборов символов, которые не кодируются по принципу Ханьской унификации и, следовательно, свободны от его ограничений:

Эти зависящие от региона наборы символов также считаются не затронутыми Ханьским объединением из-за их специфичной для региона природы:

ISO/IEC 2022 (на основе кодов последовательности для переключения между наборами символов китайского, японского и корейского языков, следовательно, без унификации)
Расширения Big5
GCCS и его преемник HKSCS

Однако ни один из этих альтернативных стандартов не получил такого широкого распространения, как Unicode , который в настоящее время является базовым набором символов для многих новых стандартов и протоколов, принятых на международном уровне и встроен в архитектуру операционных систем ( Microsoft Windows , Apple macOS и многих других). Unix-подобные системы), языки программирования ( Perl , Python , C# , Java , Common Lisp , APL , C , C++ ) и библиотеки (IBM International Components for Unicode (ICU), а также Pango , Graphite , Scribe , Uniscribe и Механизмы рендеринга ATSUI ), форматы шрифтов ( TrueType и OpenType ) и так далее.

В марте 1989 года система на основе (B)TRON была принята японской правительственной организацией «Центр образовательных вычислений» в качестве системы выбора для школьного образования, включая обязательное образование . ^[15] Однако в апреле в отчете под названием «Национальный торговый оценочный отчет о барьерах внешней торговли за 1989 год» Управления торгового представителя США эта система конкретно была указана как торговый барьер в Японии. В отчете утверждается, что принятие японским правительством системы на основе TRON выгодно японским производителям и, таким образом, исключает операционные системы США из огромного нового рынка; в частности, в отчете в качестве примеров приводятся MS-DOS, OS/2 и UNIX. Управление USTR предположительно находилось под влиянием Microsoft, поскольку Microsoft предложила его бывшему сотруднику Тому Робертсону прибыльную должность. ^[16] Хотя сама система TRON была впоследствии исключена из списка санкций разделом 301 Закона о торговле 1974 года после протестов организации в мае 1989 года, торговый спор заставил Министерство международной торговли и промышленности принять запрос от Масаеши Сон отменить выбор Центром образовательных вычислений системы на базе TRON для использования образовательных компьютеров. ^[17] Этот инцидент считается символическим событием потери импульса и возможного упадка системы BTRON, что привело к широкому распространению MS-DOS в Японии и возможному принятию Unicode с его преемником Windows.

Объединение всех эквивалентных символов

Не было никакого стремления к полной семантической унификации всех семантически связанных символов, хотя эта идея будет относиться к соответствующим пользователям восточноазиатских языков одинаково, независимо от того, пишут ли они на корейском, упрощенном китайском, традиционном китайском, японском кюдзитай , японском синдзитай или вьетнамском языке. . Вместо того, чтобы некоторые варианты получали отдельные кодовые точки, в то время как другие группы вариантов должны иметь общие кодовые точки, все варианты могут быть надежно выражены только с помощью тегов метаданных (например, форматирование CSS на веб-страницах). Бремя ляжет на всех тех, кто использует разные версии直,別,兩,兔, независимо от того, вызвана ли эта разница упрощением, международными различиями или внутринациональными различиями. Однако на некоторых платформах (например, смартфонах) устройство может поставляться с предустановленным только одним шрифтом. Системный шрифт должен выбрать глиф по умолчанию для каждой кодовой точки, и эти глифы могут сильно различаться, указывая на разные основные графемы.

Следовательно, использование повсеместной языковой разметки сталкивается с двумя основными проблемами. Во-первых, существуют контексты, в которых языковая разметка недоступна (фиксация кода, простой текст). Во-вторых, любое решение потребует, чтобы в каждой операционной системе было предустановлено множество глифов для семантически идентичных символов, имеющих множество вариантов. Помимо стандартных наборов символов упрощенного китайского, традиционного китайского, корейского, вьетнамского, японского языка Кюдзитай и японского языка Синдзитай, существуют также «древние» формы символов, представляющие интерес для историков, лингвистов и филологов.

База данных Unicode Unihan уже установила связи между многими символами. База данных Unicode уже каталогизирует связи между вариантами символов с отдельными кодовыми точками. Однако для символов с общим кодом изображение эталонного глифа обычно смещено в сторону традиционной китайской версии. Кроме того, решение о том, классифицировать ли пары как семантические варианты или z-варианты, не всегда является последовательным и ясным, несмотря на объяснения в справочнике. ^[18]

Так называемые семантические варианты丟(U+4E1F) и丢(U+4E22) являются примерами, которые Unicode приводит как существенно отличающиеся по своим абстрактным формам, в то время как Unicode перечисляет佛и仏как z-варианты, отличающиеся только шрифтом. стиль. Парадоксально, но Unicode считает兩и両почти идентичными z-вариантами, в то же время классифицируя их как существенно разные семантические варианты. Также известны случаи, когда некоторые пары символов одновременно являются семантическим вариантом, специализированным семантическим вариантом и упрощенным вариантом:個(U+500B) и个(U+4E2A). Встречаются случаи невзаимной эквивалентности. Например, запись базы данных Unihan для亀(U+4E80) считает龜(U+9F9C) своим z-вариантом, но запись для龜не перечисляет亀как z-вариант, хотя очевидно, что龜уже был в базу данных на момент записи записи для亀.

Некоторые технические ошибки привели к дублированию полностью идентичных символов, таких как﨣(U+FA23) и 𧺯 (U+27EAF). Если в шрифте есть глифы, закодированные для обеих точек, так что для обеих точек используется один шрифт, они должны выглядеть одинаково. Эти случаи указаны как z-варианты, несмотря на отсутствие дисперсии. Для облегчения побитового двустороннего преобразования были добавлены намеренно дублированные символы . Поскольку двустороннее преобразование было одним из первых преимуществ Unicode, это означало, что если используемый национальный стандарт без необходимости дублировал символ, Unicode должен был сделать то же самое. Unicode называет эти преднамеренные дублирования « вариантами совместимости », как и 漢 (U+FA9A), который называет漢(U+6F22) своим вариантом совместимости. Пока приложение использует один и тот же шрифт для обоих, они должны выглядеть одинаково. Иногда, как в случае с車с U+8ECA и U+F902, добавленный символ совместимости указывает уже существующую версию 車как вариант совместимости и как z-вариант. Поле варианта совместимости переопределяет поле z-варианта, вызывая нормализацию во всех формах, включая каноническую эквивалентность. Несмотря на название, варианты совместимости на самом деле канонически эквивалентны и объединяются в любой схеме нормализации Unicode, а не только в нормализации совместимости. Это похоже на то, как ЗНАК U+212B Å АНГСТРОМ канонически эквивалентен заранее составленной U+00C5 Å ЛАТИНСКОЙ ЗАГЛАВНОЙ БУКВЕ A С КОЛЬЦОМ НАВЕРХУ . Большая часть программного обеспечения (например, программное обеспечение MediaWiki, на котором размещена Википедия) заменяет все канонически эквивалентные символы, которые не рекомендуются (например, символ ангстрема), на рекомендуемый эквивалент. Несмотря на название, «варианты совместимости» CJK являются канонически эквивалентными символами, а не символами совместимости.

漢 (U+FA9A) был добавлен в базу данных позже, чем漢(U+6F22), и его запись информирует пользователя о совместимости. С другой стороны,漢(U+6F22) не имеет такой эквивалентности, указанной в этой записи. Юникод требует, чтобы все записи после их допуска не могли изменить совместимость или эквивалентность, чтобы правила нормализации для уже существующих символов не менялись.

Некоторые пары Традиционного и Упрощенного также считаются смысловыми вариантами. Согласно определениям Unicode, имеет смысл, что все упрощения (которые не приводят к объединению совершенно разных символов для их гомофонии) будут формой семантического варианта. Юникод классифицирует丟и丢как соответствующие традиционные и упрощенные варианты друг друга, а также как семантические варианты друг друга. Однако, хотя Unicode классифицирует億(U+5104) и亿(U+4EBF) как соответствующие традиционные и упрощенные варианты друг друга, Unicode не считает億и亿семантическими вариантами друг друга.

Unicode утверждает, что «в идеале в стандарте Unicode не должно быть пар z-вариантов». ^[18] Может показаться, что цель состоит в том, чтобы, по крайней мере, унифицировать все второстепенные варианты, избыточность совместимости и случайную избыточность, оставив дифференциацию шрифтам и языковым тегам. Это противоречит заявленной цели Unicode — устранить эти накладные расходы и позволить любому количеству любых мировых скриптов находиться в одном документе с одной системой кодировки. ^{[ неправильный синтез? ]} В первой главе руководства говорится: «С помощью Unicode индустрия информационных технологий заменила быстрорастущие наборы символов стабильностью данных, глобальной функциональной совместимостью и обменом данными, упрощенным программным обеспечением и снижением затрат на разработку. Приняв набор символов ASCII в качестве отправной точки, Стандарт Unicode выходит далеко за рамки ограниченной способности ASCII кодировать только прописные и строчные буквы от A до Z. Он обеспечивает возможность кодирования всех символов, используемых в письменных языках мира — можно закодировать более 1 миллиона символов. для указания любого символа на любом языке требуется код последовательности или управления. Кодировка символов Юникода одинаково обрабатывает алфавитные символы, идеографические символы и символы, что означает, что они могут использоваться в любой смеси и с одинаковой легкостью». ^[10]

В результате нам приходится остановиться на одной единой эталонной графеме для всех z-вариантов, что является спорным, поскольку лишь немногие за пределами Японии признают佛и仏эквивалентными. Даже в самой Японии эти варианты находятся по разные стороны большого упрощения, называемого Синдзитай. По сравнению с ним Unicode фактически сделал бы упрощение侣(U+4FA3) и侶(U+4FB6) , принятое в КНР . Такой план также устранил бы очень визуально различимые вариации таких символов, как直(U+76F4) и雇(U+96C7).

Можно было бы ожидать, что все упрощенные символы одновременно будут z-вариантами или семантическими вариантами своих традиционных аналогов, но многие из них не являются ни тем, ни другим. Легче объяснить тот странный случай, когда семантические варианты могут быть одновременно и семантическими вариантами, и специализированными вариантами, когда определение Unicode заключается в том, что специализированные семантические варианты имеют одно и то же значение только в определенных контекстах. Языки используют их по-разному. Пара, персонажи которой на 100% заменяют друг друга на японском языке, может быть не такой гибкой на китайском. Таким образом, любое комплексное объединение рекомендуемых кодовых точек должно будет поддерживать некоторые варианты, которые лишь незначительно отличаются по внешнему виду, даже если значение на 100% одинаково для всех контекстов на одном языке, поскольку на другом языке эти два символа могут не совпадать на 100%. -в заменах.

Примеры языково-зависимых глифов

В каждой строке следующей таблицы один и тот же символ повторяется во всех шести столбцах. Однако каждый столбец помечен (по langатрибуту) как принадлежащий разному языку: китайскому ( упрощенному и двум типам традиционного ), японскому , корейскому или вьетнамскому . Браузер должен выбрать для каждого символа глиф (из шрифта), подходящий для указанного языка . (Помимо реальных вариаций символов — обратите внимание на различия в порядке, количестве или направлении штрихов — гарнитуры могут также отражать разные типографские стили, как в случае с алфавитами с засечками и без засечек.) Это работает только для выбора резервного глифа, если у вас установлены шрифты CJK. в вашей системе, и шрифт, выбранный для отображения этой статьи, не содержит глифов для этих символов.

Ни один вариант символа, который является эксклюзивным для корейского или вьетнамского языка, не получил своего собственного кодового знака, тогда как почти все японские варианты Синдзитай или варианты упрощенного китайского языка имеют отдельные кодовые точки и однозначные ссылочные глифы в стандарте Unicode.

В двадцатом веке страны Восточной Азии разработали свои собственные стандарты кодирования. В каждом стандарте сосуществовали варианты с разными кодовыми точками, отсюда и разные кодовые точки в Unicode для определенных наборов вариантов. Если взять в качестве примера упрощенный китайский язык, то два варианта символов內(U+5167) и内(U+5185) отличаются точно так же, как корейский и некорейский варианты全(U+5168). Каждый соответствующий вариант первого символа имеет либо入(U+5165), либо人(U+4EBA). Каждый соответствующий вариант второго символа имеет либо入(U+5165), либо人(U+4EBA). Оба варианта первого символа получили свои собственные кодовые точки. Однако два варианта второго символа должны были иметь один и тот же код.

Обоснование Unicode заключается в том, что национальный орган по стандартизации в КНР установил отдельные кодовые точки для двух вариантов первого символа內/内, тогда как Корея никогда не создавала отдельные кодовые точки для разных вариантов全. Для этого есть причина, не имеющая ничего общего с тем, как домашние воспринимают самих персонажей. В двадцатом веке Китай пережил процесс, который изменил (если не упростил) несколько персонажей. Во время этого перехода возникла необходимость иметь возможность кодировать оба варианта в одном документе. Корейский всегда использовал вариант全с радикалом入(U+5165) сверху. Следовательно, у него не было смысла кодировать оба варианта. В документах на корейском языке, созданных в двадцатом веке, не было особых оснований представлять обе версии в одном документе.

Почти все варианты, разработанные или стандартизированные КНР, получили отдельные кодовые точки просто благодаря удачному переходу от упрощенного китайского языка к компьютерной эпохе. Однако эта привилегия, по-видимому, применяется непоследовательно, тогда как большинство упрощений, выполненных в Японии и материковом Китае с помощью кодовых точек в национальных стандартах, включая символы, упрощенные по-разному в каждой стране, действительно вошли в Unicode как отдельные кодовые точки.

Шестьдесят два «упрощенных» символа Синдзитай с различными кодовыми точками в Японии были объединены со своими традиционными эквивалентами Кюдзитай, такими как海. ^{[ нужна цитация ]} Это может вызвать проблемы для стратегии языковых тегов. Для традиционных и «упрощенных» версий японского языка не существует универсального тега, как для китайского. Таким образом, любому японскому писателю, желающему отобразить форму Кюдзитай海, возможно, придется пометить символ как «Традиционный китайский» или поверить, что японский шрифт получателя использует только глифы Кюдзитай, но для отображения могут потребоваться теги традиционного китайского и упрощенного китайского языка. две формы рядом в японском учебнике. Однако это не позволит использовать один и тот же шрифт для всего документа. В Юникоде есть две отдельные кодовые точки для海, но только по «причинам совместимости». Любой шрифт, совместимый с Unicode, должен отображать эквивалентные кодовые точки версий Kyūjitai и Shinjitai в Unicode одинаково. Неофициально шрифт может отображаться海по-разному: 海 (U+6D77) как версия Синдзитай и 海 (U+FA45) как версия Кюдзитай (которая идентична традиционной версии письменного китайского и корейского языков).

Радикал糸(U+7CF8) используется в таких символах, как紅/红, в двух вариантах, причем вторая форма представляет собой просто курсив. Радикальные компоненты紅(U+7D05) и红(U+7EA2) семантически идентичны, а глифы различаются только в последнем, используя курсивную версию компонента糸. Однако в материковом Китае органы по стандартизации хотели стандартизировать форму скорописи при использовании в таких символах, как红. Поскольку это изменение произошло относительно недавно, наступил переходный период. И紅(U+7D05), и红(U+7EA2) получили отдельные кодовые точки в органах стандартов кодирования текста КНР, поэтому в документах на китайском языке можно использовать обе версии. Эти два варианта также получили разные кодовые точки в Юникоде.

Случай радикала艸(U+8278) доказывает, насколько произвольно положение дел. При составлении таких символов, как草(U+8349), радикал располагался вверху, но имел две разные формы. Традиционные китайцы и корейцы используют четырехтактную версию. Вверху草должно быть что-то похожее на два знака плюс ( ⺿ ). Упрощенный китайский, японский кюдзитай и японский синдзитай используют трехстрочную версию, например, два знака плюс, разделяющие горизонтальные штрихи ( ⺾ , т. е.草). Органы кодирования текста КНР не кодировали эти два варианта по-разному. Тот факт, что почти каждое другое изменение, внесенное КНР, независимо от того, насколько оно незначительное, действительно требовало своего собственного кода, позволяет предположить, что это исключение могло быть непреднамеренным. Unicode скопировал существующие стандарты как есть, сохранив такие нарушения.

Консорциум Unicode признавал ошибки и в других случаях. Множество блоков Юникода для идеографов CJK Han имеют избыточность в исходных стандартах, избыточность, вызванную ошибочным импортом исходных стандартов, а также случайными слияниями, которые позже исправляются, создавая прецедент для разъединяющих символов.

Для носителей языка варианты могут быть непонятными или неприемлемыми в образованном контексте. Носители английского языка могут понять рукописную заметку с надписью «4P5 кг» как «495 кг», но написание девяти задом наперед (так что это выглядит как «P») может вызвать раздражение и будет считаться неправильным в любой школе. Аналогично, для пользователей одного языка CJK, читающих документ с «иностранными» глифами: варианты骨могут отображаться как зеркальные изображения,者могут отсутствовать штрих/иметь посторонний штрих и令могут быть нечитаемыми для людей, не являющихся японцами. (В Японии приняты оба варианта).

Примеры некоторых неунифицированных ханьских иероглифов

В некоторых случаях, когда изменения наиболее заметны, в Unicode закодированы варианты символов, что делает ненужным переключение между шрифтами или langатрибутами. Однако некоторые варианты с, возможно, минимальными различиями получают отдельные кодовые точки, и не каждый вариант с, возможно, существенными изменениями получает уникальный код. В качестве примера возьмем такой символ, как入(U+5165), для которого единственный способ отобразить варианты — изменить шрифт (или langатрибут), как описано в предыдущей таблице. С другой стороны, для內(U+5167) вариант内(U+5185) получает уникальный код. Для некоторых символов, например兌/兑(U+514C/U+5151), для отображения разных глифов можно использовать любой метод. В следующей таблице в каждой строке сравниваются варианты, которым присвоены разные кодовые точки. Для краткости отметим, что варианты синдзитай с разными компонентами обычно (и это неудивительно) имеют уникальные коды (например, 氣/気). Здесь не появятся ни они, ни упрощенные китайские иероглифы, состоящие из последовательно упрощенных радикальных компонентов (например, 紅/红, 語/语). ^[3] Этот список не является исчерпывающим.

База данных идеографических вариаций (IVD)

Чтобы решить проблемы, вызванные унификацией Хань, был создан технический стандарт Unicode, известный как База данных идеографических вариаций Unicode, чтобы решить проблему указания конкретного глифа в среде обычного текста. ^[19] Зарегистрировав коллекции глифов в базе данных идеографических вариантов (IVD), можно использовать селекторы идеографических вариантов для формирования последовательности идеографических вариантов (IVS) для указания или ограничения соответствующего глифа при обработке текста в среде Unicode.

Диапазоны Юникода

Идеографические символы, присвоенные Unicode, появляются в следующих блоках:

Унифицированные иероглифы CJK (4E00–9FFF) (также известные как URO, аббревиатура от Unified Repertoire and Ordering) ^[20]
Расширение A унифицированных иероглифов CJK (3400–4DBF)
Расширение B унифицированных иероглифов CJK (20000–2A6DF)
Расширение C унифицированных идеографов CJK (2A700–2B73F)
Расширение D унифицированных иероглифов CJK (2B740–2B81F)
Расширение E унифицированных иероглифов CJK (2B820–2CEAF)
Расширение F унифицированных иероглифов CJK (2CEB0–2EBEF)
Расширение унифицированных иероглифов CJK G (30000–3134F)
Расширение унифицированных идеографов CJK H (31350–323AF)
Расширение I унифицированных иероглифов CJK (2EBF0–2EE5F)
Идеограммы совместимости CJK (F900 – FAFF) (двенадцать символов FA0E, FA0F, FA11, FA13, FA14, FA1F, FA21, FA23, FA24, FA27, FA28 и FA29 на самом деле являются «унифицированными иероглифами», а не «идеограммами совместимости»)

Unicode включает поддержку радикалов CJKV, штрихов, знаков препинания, знаков и символов в следующих блоках:

Добавка радикалов CJK (2E80–2EFF)
CJK Удары (31C0–31EF)
Символы и пунктуация CJK (3000–303F)
Символы идеографического описания (2FF0–2FFF)

В этих блоках появляются дополнительные символы совместимости (не рекомендуется использовать):

Совместимость с CJK (3300–33FF)
Формы совместимости CJK (FE30–FE4F)
Идеограммы совместимости CJK (F900–FAFF)
Дополнение к иероглифам совместимости CJK (2F800–2FA1F)
Прилагаемые письма и месяцы CJK (3200–32FF)
Закрытое идеографическое приложение (1F200–1F2FF)
Радикалы Канси (2F00–2FDF)

Эти символы совместимости (за исключением двенадцати унифицированных иероглифов в блоке «Идеографы совместимости CJK») включены для совместимости с устаревшими системами обработки текста и другими устаревшими наборами символов. Они включают формы символов для вертикального расположения текста и символы форматированного текста, которые Unicode рекомендует обрабатывать другими способами.

Международное ядро идеографов

Ядро международных идеографов (IICore) — это подмножество 9810 иероглифов, полученных из таблиц унифицированных идеографов CJK, предназначенное для реализации в устройствах с ограниченной памятью, возможностями ввода/вывода и/или в приложениях, в которых используется полный набор идеографов ISO 10646. не осуществимо. В текущем стандарте 9810 символов. ^[21]

Файлы базы данных Unihan

Проект Unihan всегда старался сделать доступной свою базу данных сборок. ^[2]

Проект libUnihan предоставляет нормализованную базу данных SQLite Unihan и соответствующую библиотеку C. ^[22] Все таблицы в этой базе данных находятся в пятой нормальной форме . libUnihan выпускается под лицензией LGPL , а его база данных UnihanDb — под лицензией MIT .

Смотрите также

Кодировка китайских символов - представление символов CJK на компьютерах.
GB 18030 — кодировка символов Юникода, чаще всего используемая для упрощенного китайского языка.
Китаизация - ассимиляция ханьской китайской культурой.
Z-вариант – глифы с незначительными типографскими отличиями.
Список шрифтов CJK
Аллограф – Буквы альтернативной формы.
Варианты китайских иероглифов – китайские иероглифы, выходящие за рамки стандартных.

Примечания

^ Unihan также может обратиться к базе данных Unihan, поддерживаемой Консорциумом Unicode , которая предоставляет информацию обо всех унифицированных символах хань, закодированных в стандарте Unicode, включая сопоставления с различными национальными и отраслевыми стандартами, индексы в стандартных словарях, закодированные варианты, произношение в различные языки и английское определение. База данных доступна общественности в виде текстовых файлов ^[2] и через интерактивный веб-сайт. ^[3]^[4] Последний также включает репрезентативные глифы и определения составных слов, взятые из бесплатных проектов словарей японского EDICT и китайского CEDICT (которые предоставлены для удобства и не являются формальной частью стандарта Unicode).
^ Однако большинство из них являются устаревшими символами, поскольку цель Unicode - кодировать каждую систему письма, которая использовалась или когда-либо использовалась; Чтобы считаться грамотным, необходимо набрать от 2000 до 3000 символов.