Предварительно составленный символ ( альтернативно составной символ или разложимый символ ) — это сущность Unicode , которая также может быть определена как последовательность одного или нескольких других символов. Предварительно составленный символ обычно может представлять букву с диакритическим знаком , например, é (латинская строчная буква e с острым ударением ). Технически, é (U+00E9) — это символ, который может быть разложен на эквивалентную строку базовой буквы e (U+0065) и сочетания острого ударения (U+0301). Аналогично, лигатуры являются предварительными композициями своих составляющих букв или графем .
Предварительно составленные символы являются устаревшим решением для представления многих специальных букв в различных наборах символов . В Unicode они включены в первую очередь для помощи компьютерным системам с неполной поддержкой Unicode, где эквивалентные разложенные символы могут отображаться неправильно.
В следующем примере представлена распространённая шведская фамилия Åström, написанная двумя альтернативными способами: первый — с прекомпозицией Å (U+00C5) и ö (U+00F6), а второй — с использованием разложимой базовой буквы A (U+0041) с соединительным кольцом сверху (U+030A) и буквы o (U+006F) с соединительным диэрезисом (U+0308).
За исключением разных цветов, эти два решения эквивалентны и должны отображаться идентично. Однако на практике некоторые реализации Unicode все еще испытывают трудности с разложенными символами. В худшем случае объединенные диакритические знаки могут игнорироваться или отображаться как нераспознанные символы после их базовых букв, поскольку они не включены во все шрифты . Чтобы преодолеть эти проблемы, некоторые приложения могут просто попытаться заменить разложенные символы эквивалентными предварительно составленными символами.
Однако при неполном шрифте предварительно составленные символы также могут вызывать проблемы, особенно если они более экзотические, как в следующем примере (показывающем реконструированное протоиндоевропейское слово, означающее «собака»):
В некоторых ситуациях предварительно составленные зеленые k , u и o с диакритическими знаками могут отображаться как нераспознанные символы или их типографский вид может сильно отличаться от конечной буквы n без диакритики. Во второй строке базовые буквы должны по крайней мере отображаться правильно, даже если объединенные диакритические знаки не могут быть распознаны.
В OpenType имеется «тег feature» ccmp для определения глифов, которые представляют собой композиции или разложения, включающие комбинирование символов.
Теоретически большинство китайских иероглифов , закодированных унификацией Хань и аналогичными схемами, можно рассматривать как предварительно составленные иероглифы, поскольку их можно свести (разложить) на составляющие их радикальные и фонетические компоненты с помощью языков описания китайских иероглифов . Такой подход может сократить количество иероглифов в наборе с десятков тысяч до нескольких тысяч. С другой стороны, разложенный набор иероглифов создаст проблемы для поиска и редактирования программного обеспечения и потребует больше байтов кодирования на документ. Одной из особых проблем будут проекции «множество-на-множество» между набором разложенных иероглифов и предварительно составленным иероглифом — один предварительно составленный иероглиф может быть разложен на несколько различных наборов разложенных иероглифов, в то время как один набор разложенных иероглифов может сжиматься в несколько различных предварительно составленных иероглифов. Не существует строгих требований или ограничений относительно относительного положения между компонентами внутри иероглифа, формы варианта и преобразования (сужение, расширение, растяжение, поворот и т. д.), применяемых к компонентам, а также количества каждого компонента.