stringtranslate.com

Объединение графемных соединителей

Объединение графемных объединений (CGJ), U+034F ͏ ОБЪЕДИНЕНИЕ ГРАФЕМНЫХ ОБЪЕДИНЕНИЙ — это символ Unicode , который не имеет видимого глифа и «игнорируется по умолчанию» приложениями. Его название неверно и не описывает его функцию: символ не объединяет графемы . [1] Его цель — семантически разделять символы, которые не следует считать диграфами , а также блокировать каноническое переупорядочивание объединенных знаков во время нормализации .

Например, в контексте венгерского языка соседние буквы c и s обычно считаются эквивалентными диграфу cs . Если они разделены CGJ, они будут считаться двумя отдельными графемами. Однако, в отличие от соединителя нулевой ширины и подобных символов, CGJ не влияет на то, отображаются ли две буквы отдельно или как лигатура или курсивно соединены — поведение по умолчанию для этого определяется шрифтом. [2]

CGJ также необходим для сложных сценариев . Например, в большинстве случаев еврейский кантилляционный акцент metheg должен отображаться слева от точки гласной , и по умолчанию большинство систем отображения будут отображать его таким образом, даже если он напечатан перед гласной. Но в некоторых словах в библейском иврите metheg отображается справа от гласной, и чтобы указать движку отображения правильно отображать его справа, CGJ должен быть напечатан между metheg и гласной. Сравните:

В случае нескольких последовательных комбинированных диакритических знаков промежуточный CGJ указывает, что они не должны подвергаться каноническому переупорядочиванию. [2]

Напротив, « несоединительный символ нулевой ширины » (при U+200C в диапазоне общей пунктуации ) не позволяет двум соседним символам превратиться в лигатуру.

Ссылки

  1. ^ «UTN #27: Известные аномалии в именах символов Unicode».
  2. ^ ab "Стандарт Unicode, версия 6.0 – Основная спецификация" (PDF) . www.unicode.org . Получено 16.04.2020 .

Внешние ссылки