stringtranslate.com

Предварительно составленный персонаж

Предварительно составленный символ ( альтернативно составной символ или разлагаемый символ ) — это объект Юникода , который также можно определить как последовательность одного или нескольких других символов. Предварительно составленный символ обычно может представлять собой букву с диакритическим знаком , например é (латинская строчная буква e с острым ударением ). Технически é (U+00E9) — это символ, который можно разложить на эквивалентную строку, состоящую из базовой буквы e (U+0065) и сочетания острого ударения (U+0301). Точно так же лигатуры представляют собой предкомпозиции составляющих их букв или графем .

Предварительно составленные символы — это устаревшее решение для представления множества специальных букв в различных наборах символов . В Unicode они включены в первую очередь для помощи компьютерным системам с неполной поддержкой Unicode, где эквивалентные разложенные символы могут отображаться неправильно.

Сравнение предварительно составленных и разложенных символов

В следующем примере есть распространенная шведская фамилия Острём, написанная двумя альтернативными методами: первый — с предварительно составленными буквами Å (U+00C5) и ö (U+00F6), а второй — с использованием разложенной базовой буквы A ( U+0041) с объединяющим кольцом выше (U+030A) и буквой « о» (U+006F) с объединяющим диэрезисом (U+0308).

  1. Å strö m (U+00C5U+0073 U+0074 U+0072 U +00F6U+006D)
  2. Острем (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)

За исключением разных цветов, оба решения эквивалентны и должны отображаться одинаково. Однако на практике в некоторых реализациях Unicode все еще возникают трудности с разложением символов. В худшем случае сочетание диакритических знаков может быть проигнорировано или отображено как нераспознанные символы после их основных букв, поскольку они не включены во все шрифты . Чтобы преодолеть эти проблемы, некоторые приложения могут просто попытаться заменить разложенные символы эквивалентными предварительно составленными символами.

Однако при неполном шрифте заранее составленные символы также могут быть проблематичными, особенно если они более экзотические, как в следующем примере (показано реконструированное протоиндоевропейское слово, обозначающее «собака»):

  1. ḱṷṓ n (U+1E31 U+1E77 U+1E53U+006E)
  2. ḱṷṓn (U+006B U+0301 U+0075 U+032D U+006F U+0304 U+0301 U+006E)

В некоторых ситуациях предварительно составленные зеленые буквы k , u и o с диакритическими знаками могут отображаться как нераспознанные символы , или их типографский вид может сильно отличаться от последней буквы n без диакритических знаков. Во второй строке базовые буквы должны, по крайней мере, отображаться правильно, даже если объединяющие диакритические знаки не могут быть распознаны.

OpenType имеет «тег функции» ccmp для определения глифов, которые представляют собой композиции или разложения, включающие объединение символов.

Китайские символы

Теоретически, большинство китайских иероглифов , закодированных ханьской унификацией и аналогичными схемами, можно рассматривать как заранее составленные иероглифы, поскольку их можно свести (разложить) на составляющие их радикальные и фонетические компоненты с помощью китайских языков описания иероглифов . Такой подход мог бы сократить количество символов в наборе символов с десятков тысяч до нескольких тысяч. С другой стороны, декомпозированный набор символов создаст проблемы для программного обеспечения поиска и редактирования и потребует больше байтов кодирования на документ. Одной из особых проблем могут стать проекции «множество-множество» между набором разложенных символов и предварительно составленным символом: один предварительно составленный символ может быть разложен на несколько разных наборов разложенных символов, в то время как один набор разложенных символов может сжаться в несколько разных предварительно составленных символов. . Не существует строгих требований или ограничений относительно относительного положения между компонентами внутри символа, формы варианта и преобразования (сужение, расширение, растягивание, поворот и т. д.), применяемых к компонентам, а также количества каждого компонента.

Смотрите также

Источники

Внешние ссылки