stringtranslate.com

Объединение характера

Кириллица У в сочетании с бреве дает ў .

В цифровой типографике комбинированные символы — это символы , предназначенные для изменения других символов. Наиболее распространённым сочетанием символов в латинице являются сочетание диакритических знаков (в том числе сочетание ударений ).

Юникод также содержит множество заранее составленных символов , поэтому во многих случаях можно использовать как сочетание диакритических знаков, так и предварительно составленных символов по выбору пользователя или приложения. Это приводит к необходимости выполнять нормализацию Юникода перед сравнением двух строк Юникода и тщательно разрабатывать преобразователи кодировки, чтобы правильно сопоставить все допустимые способы представления символа в Юникоде с устаревшей кодировкой, чтобы избежать потери данных. [1]

В Unicode основным блоком объединения диакритических знаков европейских языков и международного фонетического алфавита является U+0300–U+036F. Комбинированные диакритические знаки также присутствуют во многих других блоках символов Юникода. В Юникоде диакритические знаки всегда добавляются после основного символа (в отличие от некоторых старых комбинируемых наборов символов, таких как ANSEL ), и к одному и тому же символу можно добавить несколько диакритических знаков, включая расположенные друг над другом диакритические знаки выше и ниже, хотя некоторые системы могут этого не делать. сделайте это хорошо.

Диапазоны Юникода

Следующие блоки посвящены именно объединению символов:

Объединение символов не ограничивается этими блоками; например, комбинированный дакутен (U+3099) и комбинированный хандакутен (U+309A) находятся в блоке Хирагана , блок Деванагари содержит комбинированные знаки гласных и другие знаки для использования с этим письмом и т.д. Комбинирующим символам присваивается основная категория Юникода «M» («Знак»).

Кодовые точки U+032A и U+0346–034A являются символами IPA :

Коды U + 034B – 034E являются диакритическими знаками IPA для неупорядоченной речи :

U + 034F представляет собой « объединяющее соединение графем » (CGJ) и не имеет видимого глифа.

Коды U+035C–0362 представляют собой двойные диакритические знаки , диакритические знаки, расположенные между двумя буквами.

Кодовые точки U + 0363–036F представляют собой средневековые диакритические знаки надстрочных букв, буквы, написанные непосредственно над другими буквами, встречающимися в средневековых германских рукописях, но в некоторых случаях использовавшиеся вплоть до 19 века. Например, U+0364 — это буква e , написанная над предыдущей буквой, которая будет использоваться для обозначения умлаута ( раннего ) нового верхненемецкого языка , например для современного немецкого ü .

OpenType

OpenType имеет «тег функции» ccmp для определения глифов, которые представляют собой композиции или разложения, включающие объединение символов, тег mark для определения положения объединения символов на базовом глифе и mkmk для расположения символов объединения друг с другом.

Текст Залго

Предложение из текста Залго

Объединение символов использовалось для создания текста Zalgo , который представляет собой текст, который выглядит «испорченным» или «жутким» из-за чрезмерного использования объединения символов. Это приводит к тому, что текст расширяется вертикально, перекрывая другой текст. [2] Чаще всего используется в Интернете в контексте ужасов . Для большинства программ рендеринг обычно очень сложен , поэтому метки объединения часто уменьшаются или полностью удаляются.

Смотрите также

Примечания

  1. ^ Например, при преобразовании между windows-1258 и VISCII первый использует объединение диакритических знаков, в то время как второй имеет большой выбор заранее составленных символов, поэтому преобразователь, использующий простое сопоставление между значениями кода и кодовыми точками Unicode, будет искажать текст при преобразовании между ними.
  2. ^ Корпела, Юкка К. «Как работает текст Залго?». Переполнение стека . Проверено 11 апреля 2019 г.

Внешние ссылки