В цифровой типографике комбинированные символы — это символы , предназначенные для изменения других символов. Наиболее распространённым сочетанием символов в латинице являются сочетание диакритических знаков (в том числе сочетание ударений ).
Юникод также содержит множество заранее составленных символов , поэтому во многих случаях можно использовать как сочетание диакритических знаков, так и предварительно составленных символов по выбору пользователя или приложения. Это приводит к необходимости выполнять нормализацию Юникода перед сравнением двух строк Юникода и тщательно разрабатывать преобразователи кодировки, чтобы правильно сопоставить все допустимые способы представления символа в Юникоде с устаревшей кодировкой, чтобы избежать потери данных. [1]
В Unicode основным блоком объединения диакритических знаков европейских языков и международного фонетического алфавита является U+0300–U+036F. Комбинированные диакритические знаки также присутствуют во многих других блоках символов Юникода. В Юникоде диакритические знаки всегда добавляются после основного символа (в отличие от некоторых старых комбинируемых наборов символов, таких как ANSEL ), и к одному и тому же символу можно добавить несколько диакритических знаков, включая расположенные друг над другом диакритические знаки выше и ниже, хотя некоторые системы могут этого не делать. сделайте это хорошо.
Следующие блоки посвящены именно объединению символов:
Объединение символов не ограничивается этими блоками; например, комбинированный дакутен (U+3099) и комбинированный хандакутен (U+309A) находятся в блоке Хирагана , блок Деванагари содержит комбинированные знаки гласных и другие знаки для использования с этим письмом и т.д. Комбинирующим символам присваивается основная категория Юникода «M» («Знак»).
Кодовые точки U+032A и U+0346–034A являются символами IPA :
Коды U + 034B – 034E являются диакритическими знаками IPA для неупорядоченной речи :
U + 034F представляет собой « объединяющее соединение графем » (CGJ) и не имеет видимого глифа.
Коды U+035C–0362 представляют собой двойные диакритические знаки , диакритические знаки, расположенные между двумя буквами.
Кодовые точки U + 0363–036F представляют собой средневековые диакритические знаки надстрочных букв, буквы, написанные непосредственно над другими буквами, встречающимися в средневековых германских рукописях, но в некоторых случаях использовавшиеся вплоть до 19 века. Например, U+0364 — это буква e , написанная над предыдущей буквой, которая будет использоваться для обозначения умлаута ( раннего ) нового верхненемецкого языка , например uͤ для современного немецкого ü .
OpenType имеет «тег функции» ccmp для определения глифов, которые представляют собой композиции или разложения, включающие объединение символов, тег mark для определения положения объединения символов на базовом глифе и mkmk для расположения символов объединения друг с другом.
Объединение символов использовалось для создания текста Zalgo , который представляет собой текст, который выглядит «испорченным» или «жутким» из-за чрезмерного использования объединения символов. Это приводит к тому, что текст расширяется вертикально, перекрывая другой текст. [2] Чаще всего используется в Интернете в контексте ужасов . Для большинства программ рендеринг обычно очень сложен , поэтому метки объединения часто уменьшаются или полностью удаляются.