Блок символов Unicode
Hangul Syllables — это блок Unicode, содержащий предварительно составленные блоки слогов Hangul для современного корейского языка. Слоги могут быть напрямую сопоставлены алгоритмом с последовательностями из двух или трех символов в блоке Unicode Hangul Jamo :
- один из U+1100–U+1112: 19 современных ведущих согласных хангыль джамо;
- один из U + 1161–U + 1175: 21 современная гласная хангыля джамо;
- ни одного или один из U+11A8–U+11C2: 27 современных конечных согласных хангыль хамо.
Этот блок кодируется в соответствии с канонически эквивалентным порядком этих (двух или трех) хамо (по одному в каждом поддиапазоне хамо, указанных выше), составляющих каждый слог.
Обратите внимание, что полный слог хангыль может включать один из этих символов, но ему может предшествовать один или несколько ведущих согласных джамо, а за ним может следовать один или несколько конечных джамо (возможно, предшествуемых одним или несколькими гласными джамо, если закодированный слог состоит из двух джамо и не включает никаких конечных согласных джамо). Также некоторые слоги хангыль могут не включать ни одного из этих предсоставных символов. Но такое расширение письма хангыль (которое позволяет создавать более сложные слоги, состоящие из одного и того же квадрата) не очень распространено в современном корейском языке.
Блокировать
История
Кодирование слогов хангыля в Unicode было осложнено реорганизацией кодовых точек:
- Unicode версии 1.0.0 закодировал 2350 современных корейских слогов хангыля из KS C 5601-1987 в U+3400–U+3D2D. Этот диапазон теперь является частью расширения CJK Unified Ideographs Extension A.
- Версия 1.1 добавила 1930 дополнительных современных слогов из KS C 5657-1991 в U+3D2E–U+44B7, шесть современных слогов из GB 12052 -89 в U+44B8–U+44BD и первые 2370 слогов, которые не входят в вышеупомянутые три набора в U+44BE–U+4DFF. Они в совокупности охватывают остаток того, что сейчас называется CJK Unified Ideographs Extension A , и все то, что сейчас называется Yijing Hexagram Symbols .
- Кроме того, в Unicode 1.1 было три ошибки: [3]
- U+384E: 삤 в базе данных символов Unicode, но 삣 в таблицах кодов Unicode 1.0 и ISO/IEC 10646-1:1993 и в соответствии с исходными стандартными сопоставлениями
- U+40BC: 삣 в базе данных символов Unicode, но 삤 в кодовых таблицах ISO/IEC 10646-1:1993 и в соответствии с исходными стандартными сопоставлениями
- U+436C: 콫 в базе данных символов Unicode, но 콪 в кодовых таблицах ISO/IEC 10646-1:1993 и в соответствии с исходными стандартными сопоставлениями
- В версии 2.0 добавлены 4516 оставшихся возможных слогов из KS C 5601-1992 и переставлены [4] [5] все закодированные слоги в текущий диапазон U+AC00–U+D7AF, что позволяет алгоритмически разложить их на отдельные джамо.
В RFC 2279 поясняется, что это существенное несовместимое изменение было сделано на основании предположения, что не существует никаких данных или программного обеспечения, использующих Unicode для корейского языка:
«Официальным оправданием для разрешения такого несовместимого изменения было то, что не существовало никаких реализаций и данных, содержащих хангыль, утверждение, которое, вероятно, является правдой, но остается недоказуемым. Инцидент был назван «корейским беспорядком», и соответствующие комитеты пообещали никогда больше не вносить такие несовместимые изменения». — RFC 2279
Впоследствии Unicode принял политику стабильности кодирования, которая гласит, что «после кодирования символа он не будет перемещен или удален». [6]
В следующих документах, связанных с Unicode, описаны цель и процесс определения конкретных символов в блоке слогов хангыль:
Ссылки
- ^ "База данных символов Unicode". Стандарт Unicode . Получено 2023-07-26 .
- ^ "Перечисленные версии стандарта Unicode". Стандарт Unicode . Получено 2023-07-26 .
- ^ Чунг, Джаэмин (29.03.2017). «Информационный документ о трех современных слогах хангыля до Unicode-2.0» (PDF) .
- ^ Чанг, КД; Чой, Ин Сук; Ким, Чон Хо (1995-10-04). «Таблица преобразования корейской кодировки хангыль».
- ^ "Примечания и исправления для HANGUL.TXT". 2005-10-13.
- ^ «Политики стабильности кодировки символов Unicode». Консорциум Unicode. 2016-11-14.
Смотрите также