stringtranslate.com

Вариант формы (Юникод)

Вариантная форма — это альтернативный глиф для символа, закодированный в Unicode с помощью механизма вариационных последовательностей : последовательностей в Unicode, которые состоят из базового символа, за которым следует символ- селектор вариации .

Вариантная форма обычно имеет очень похожий внешний вид и значение, как и ее базовая форма. Механизм предназначен для вариантных форм, где, как правило, если вариантная форма недоступна, отображение базового символа не меняет смысла текста и может даже не быть заметным для многих читателей.

Unicode определяет два типа последовательностей вариаций:

Символы селектора вариаций находятся в нескольких блоках Unicode:

Селекторы вариаций не требуются для арабских и латинских курсивных символов, где замена глифов может происходить на основе контекста: глифы могут быть связаны вместе в зависимости от того, является ли символ начальным символом в слове, конечным символом, срединным символом или изолированным символом. Эти типы замены глифов легко обрабатываются контекстом символа без участия других авторских входных данных. Авторы также могут использовать специальные символы, такие как объединяющие и не объединяющие символы, чтобы принудительно использовать альтернативную форму глифа там, где она в противном случае не появилась бы. Лигатуры — это похожие примеры, когда глифы можно заменить, просто включив или выключив лигатуры как атрибут расширенного текста .

Для других замен глифов намерение автора может потребоваться закодировать в тексте и не может быть определено контекстуально. Это касается символов/глифов, называемых гайдзи , где разные глифы используются для одного и того же символа либо исторически, либо для идеограмм для фамилий. Это одна из серых зон в различении глифа и символа: если фамилия немного отличается от идеограммы, от которой она происходит, то это простой вариант глифа или вариант символа?

Замена символов может также происходить за пределами Unicode, например, с помощью тегов OpenType Layout. [4]

Блоки со стандартизированными последовательностями вариаций

Начиная с версии Unicode 16.0, стандартизированные последовательности вариаций, специально предназначенные для представления эмодзи/текста, определены для базовых символов в двадцати блоках: [1]

Другие стандартизированные последовательности вариаций формируются с использованием базовых символов в следующих четырнадцати блоках: [1]

Блоки с идеографическими вариационными последовательностями

По состоянию на 13 сентября 2022 года идеографические последовательности вариаций определены для базовых символов в девяти блоках: [2] [3]

Смотрите также

Ссылки

  1. ^ abc "UCD: Стандартизированные последовательности вариаций". Консорциум Unicode.
  2. ^ ab «База данных идеографических вариаций». Консорциум Unicode.
  3. ^ ab "UTS #37, База данных идеографических вариаций Unicode". Консорциум Unicode.
  4. ^ «Теги языковой системы». Microsoft. 30 сентября 2022 г.