stringtranslate.com

Сочетание характера

Кириллическая буква «У» в сочетании с бреве дает «ў» .

В цифровой типографии объединяющие символы — это символы , которые предназначены для изменения других символов. Наиболее распространенными объединяющими символами в латинском алфавите являются объединяющие диакритические знаки (включая объединяющие ударения ).

Unicode также содержит много предсоставленных символов , так что во многих случаях можно использовать как комбинированные диакритические знаки, так и предсоставленные символы по выбору пользователя или приложения. Это приводит к необходимости выполнять нормализацию Unicode перед сравнением двух строк Unicode и тщательно проектировать преобразователи кодировок для правильного сопоставления всех допустимых способов представления символа в Unicode с устаревшей кодировкой, чтобы избежать потери данных. [1]

В Unicode основным блоком комбинирования диакритических знаков для европейских языков и Международного фонетического алфавита является U+0300–U+036F. Комбинированные диакритические знаки также присутствуют во многих других блоках символов Unicode. В Unicode диакритические знаки всегда добавляются после основного символа (в отличие от некоторых старых наборов комбинированных символов, таких как ANSEL ), и возможно добавлять несколько диакритических знаков к одному и тому же символу, включая сложенные диакритические знаки сверху и снизу, хотя некоторые системы могут не отображать их должным образом.

Диапазоны Unicode

Следующие блоки предназначены специально для комбинирования персонажей:

Комбинированные символы не ограничиваются этими блоками; например, комбинационный дакутэн (U+3099) и комбинационный хандакутэн (U+309A) находятся в блоке хираганы , блок деванагари содержит комбинационные знаки гласных и другие знаки для использования с этим письмом и т. д. Комбинированным символам присваивается основная категория Unicode «M» («Знак»).

Кодовые точки U+032A и U+0346–034A являются символами IPA :

Кодовые точки U+034B–034E являются диакритическими знаками МФА для обозначения нарушений речи :

U+034F — это « соединитель графем » (CGJ), не имеющий видимого глифа.

Кодовые точки U+035C–0362 представляют собой двойные диакритические знаки, расположенные между двумя буквами.

Кодовые точки U+0363–036F — это средневековые надстрочные диакритические буквы, буквы, написанные непосредственно над другими буквами, которые встречаются в средневековых германских рукописях, но в некоторых случаях использовались вплоть до конца 19 века. Например, U+0364 — это e , написанная над предыдущей буквой, которая использовалась для ( ранней ) нововерхненемецкой умлаутной нотации, например, для современной немецкой ü .

OpenType

В OpenType имеется «тег feature» ccmp для определения глифов, которые являются композициями или разложениями, включающими комбинирование символов, тег mark для определения расположения комбинированных символов на базовом глифе и mkmk для расположения комбинированных символов друг на друге.

Текст Залго

Предложение из текста Залго

Объединение символов использовалось для создания текста Zalgo , который выглядит «испорченным» или «жутким» из-за чрезмерного использования объединенных символов. Это приводит к тому, что текст расширяется по вертикали, перекрывая другой текст. [2] Это в основном используется в контексте ужасов в Интернете . Обычно для большинства программ его рендеринг очень сложен, поэтому объединенные знаки часто уменьшаются или полностью удаляются.

Смотрите также

Примечания

  1. ^ Например, при преобразовании между Windows-1258 и VISCII первый использует объединение диакритических знаков, тогда как последний имеет большой выбор предварительно составленных символов, поэтому конвертер, использующий простое сопоставление между кодовыми значениями и кодовыми точками Unicode, испортит текст при преобразовании между ними.
  2. ^ Корпела, Юкка К. «Как работает текст Zalgo?». Stack Overflow . Получено 11 апреля 2019 г.

Внешние ссылки