В цифровой типографии объединяющие символы — это символы , которые предназначены для изменения других символов. Наиболее распространенными объединяющими символами в латинском алфавите являются объединяющие диакритические знаки (включая объединяющие ударения ).
Unicode также содержит много предсоставленных символов , так что во многих случаях можно использовать как комбинированные диакритические знаки, так и предсоставленные символы по выбору пользователя или приложения. Это приводит к необходимости выполнять нормализацию Unicode перед сравнением двух строк Unicode и тщательно проектировать преобразователи кодировок для правильного сопоставления всех допустимых способов представления символа в Unicode с устаревшей кодировкой, чтобы избежать потери данных. [1]
В Unicode основным блоком комбинирования диакритических знаков для европейских языков и Международного фонетического алфавита является U+0300–U+036F. Комбинированные диакритические знаки также присутствуют во многих других блоках символов Unicode. В Unicode диакритические знаки всегда добавляются после основного символа (в отличие от некоторых старых наборов комбинированных символов, таких как ANSEL ), и возможно добавлять несколько диакритических знаков к одному и тому же символу, включая сложенные диакритические знаки сверху и снизу, хотя некоторые системы могут не отображать их должным образом.
Следующие блоки предназначены специально для комбинирования персонажей:
Комбинированные символы не ограничиваются этими блоками; например, комбинационный дакутэн (U+3099) и комбинационный хандакутэн (U+309A) находятся в блоке хираганы , блок деванагари содержит комбинационные знаки гласных и другие знаки для использования с этим письмом и т. д. Комбинированным символам присваивается основная категория Unicode «M» («Знак»).
Кодовые точки U+032A и U+0346–034A являются символами IPA :
Кодовые точки U+034B–034E являются диакритическими знаками МФА для обозначения нарушений речи :
U+034F — это « соединитель графем » (CGJ), не имеющий видимого глифа.
Кодовые точки U+035C–0362 представляют собой двойные диакритические знаки, расположенные между двумя буквами.
Кодовые точки U+0363–036F — это средневековые надстрочные диакритические буквы, буквы, написанные непосредственно над другими буквами, которые встречаются в средневековых германских рукописях, но в некоторых случаях использовались вплоть до конца 19 века. Например, U+0364 — это e , написанная над предыдущей буквой, которая использовалась для ( ранней ) нововерхненемецкой умлаутной нотации, например, uͤ для современной немецкой ü .
В OpenType имеется «тег feature» ccmp для определения глифов, которые являются композициями или разложениями, включающими комбинирование символов, тег mark для определения расположения комбинированных символов на базовом глифе и mkmk для расположения комбинированных символов друг на друге.
Объединение символов использовалось для создания текста Zalgo , который выглядит «испорченным» или «жутким» из-за чрезмерного использования объединенных символов. Это приводит к тому, что текст расширяется по вертикали, перекрывая другой текст. [2] Это в основном используется в контексте ужасов в Интернете . Обычно для большинства программ его рендеринг очень сложен, поэтому объединенные знаки часто уменьшаются или полностью удаляются.