В Unicode есть индексированные и надстрочные версии ряда символов, включая полный набор арабских цифр . [1] Эти символы позволяют представлять любые полиномиальные , химические и некоторые другие уравнения в виде обычного текста без использования какой-либо разметки , такой как HTML или TeX .
Консорциум World Wide Web и Консорциум Unicode дали рекомендации по выбору между использованием разметки и использованием надстрочных и подстрочных символов:
При использовании в математическом контексте ( MathML ) рекомендуется последовательно использовать разметку стиля для надстрочных и подстрочных индексов […] Однако, когда надстрочные и подстрочные индексы должны отражать семантические различия, легче работать с этими значениями, закодированными в тексте, а не разметка, например, в фонетической или фонематической транскрипции . [2]
Когда эти символы были добавлены в Юникод, их предполагаемое использование [ 2] заключалось в создании настоящих верхних и нижних индексов, чтобы химические и алгебраические формулы можно было писать без разметки. Таким образом, «H₂O» (с использованием символа нижнего индекса 2) должен быть идентичен «H 2 O» (с индексной разметкой).
В действительности, многие шрифты, включающие эти символы, игнорируют определение Юникода и вместо этого создают цифры для математических глифов числителя и знаменателя , [3] [4] , которые выровнены по верхней и базовой линиям соответственно. При использовании с солидом эти глифы являются обычной заменой диагональных дробей, например, ³/₄ вместо глифа ¾ . Это изменение было сделано потому , что использование разметки не дает хорошего графического приближения дробей (сравните разметку 3/4 с надстрочным/подстрочным индексом ³/₄). Это изменение также делает надстрочные буквы полезными для порядковых индикаторов , поскольку они более точно соответствуют символам ª и º. Однако это делает их неверными для обычных верхних и нижних индексов, поэтому химические и алгебраические формулы лучше отображаются с использованием разметки.
Юникод предполагал, что диагональные дроби будут отображаться с помощью другого механизма: косая черта дроби U + 2044 визуально похожа на солид, но при использовании с обычными цифрами (а не с верхними и нижними индексами) она указывает системе макета, что дробь, такая как ¾ должен отображаться с использованием автоматической замены глифов. [5] [a] Поддержка со стороны пользователей в течение ряда лет была довольно плохой, но браузеры [b] и шрифты все чаще поддерживают предполагаемое поведение Unicode. Выбор поддерживаемых шрифтов показан в таблице ниже. (Они не будут отображаться должным образом, если у вас не установлены шрифты или если ваш браузер не поддерживает такое поведение.)
Наиболее распространенные цифры надстрочного индекса (1, 2 и 3) были в ISO-8859-1 и поэтому были перенесены в эти позиции в диапазоне Latin-1 Unicode. Остальные были помещены в специальный раздел Unicode по адресам от U+ 2070 до U+209F. В двух таблицах ниже показаны эти символы. Каждому символу верхнего или нижнего индекса предшествует обычный знак x , чтобы показать нижний/надстрочный индекс. Таблица слева содержит фактические символы Юникода; тот, что справа, содержит эквиваленты с использованием HTML- разметки для нижнего или верхнего индекса.
Юникод версии 15.1 также включает символы нижнего и верхнего индекса, предназначенные для семантического использования, в следующих блоках: [1] [6]
Объединенный стандарт Unicode содержит надстрочные и подстрочные версии подмножества латинских, греческих и кириллических букв. Здесь они расположены в алфавитном порядке для сравнения (или для удобства копирования и вставки). Поскольку эти символы встречаются в разных диапазонах Юникода, они могут иметь разный размер или положение из-за подмены шрифтов в браузере. Заштрихованные ячейки обозначают маленькие заглавные буквы, которые не очень отличаются от минускулов, и греческие буквы, которые неотличимы от латинских, и поэтому не ожидается, что они будут поддерживаться Unicode.
Небольшая пунктуация закодирована. Круглые скобки и восклицательный знак показаны выше. Вопросительный знак может быть создан с помощью надстрочного вопросительного знака и комбинированной точки: ⟨ ˀ̣ ⟩ .
Многие символы кириллицы были добавлены в Unicode 15 в блоке Cyrillic Extended-D и опубликованы в 2022 году. [8] Блок D был добавлен в бесплатные шрифты Gentium Plus и Andika в версии 6.2 в феврале 2023 года.
См. также строчные буквы в Юникоде .
Блок Latin Extended-F был создан для надстрочных букв IPA . Они были добавлены в бесплатные шрифты Gentium Plus и Andika в версии 6.2 в феврале 2023 года.
Символы Юникода для надстрочных (модификаторов) согласных букв IPA и extIPA следующие. Символы звуков со вторичной артикуляцией выделяются в скобках и располагаются под основными буквами:
Диакритический интервал для отрывных согласных, U+2BC, работает с надстрочными буквами, хотя сам по себе не является надстрочным индексом: ⟨ ᵖʼ ᵗʼ ᶜʼ ᵏˣʼ ⟩ . Если необходимо провести различие, можно использовать объединяющий апостроф U+315: ⟨ ᵖ̕ ᵗ̕ ᶜ̕ ᵏˣ̕ ⟩ . Диакритический интервал следует использовать для базовой буквы с надстрочным выпуском, например [tˢʼ] или [kˣʼ] , где область действия апострофа включает букву без надстрочного индекса, но для обозначения можно использовать комбинированный апостроф U+315. слабо артикулированный отрывной согласный, такой как [ᵗ̕] или [ᵏ̕] , где весь согласный записывается как надстрочный индекс, или вместе с U + 2BC, когда отдельные апострофы имеют область действия над основной буквой и буквами-модификаторами, как в ⟨ pʼᵏˣ̕ ⟩ . [9]
Диакритические пробелы, такие как ⟨ tʲ ⟩ , не могут быть вторично надстрочными в обычном тексте: ⟨ ᵗʲ ⟩ . (В этом случае старая буква IPA для [tʲ] , ⟨ ƫ ⟩ , имеет вариант верхнего индекса в Юникоде, U+1DB5 ⟨ ᶵ ⟩ , а также боковой вариант U+1DDA ⟨ ᶪ ⟩ , но это обычно не так. случай.)
Символы Юникода для надстрочных (модификаторов) гласных букв IPA, а также расширенной буквы, найденной в английских словарях, следующие. Также поддерживаются две последние устаревшие альтернативные буквы; они выделены в скобки и помещены под стандартными буквами IPA:
Обратите внимание, что буква пара-IPA для центральной сокращенной гласной ⟨ ᵻ ⟩ поддерживается, а ее округленный эквивалент ⟨ ᵿ ⟩ — нет. [я]
Предварительно составленные ротические гласные буквы Юникода ⟨ ɚ ɝ ⟩ напрямую не поддерживаются. Вместо этого следует использовать ротический диакритический знак: ⟨ ᵊ˞ ᶟ˞ ⟩ . [10]
Также поддерживаются две метки длины:
Частично поддерживаются подстановочные знаки надстрочных индексов (полные прописные буквы): например, ᴺC (преназальный согласный), ꟲN (назальный с предзадержкой), Pꟳ (фрикативный выпуск), NᴾF (эпентетический взрывной звук), CVNᵀ (тональный слог), Cᴸ (жидкий или боковой выпуск). , Cᴿ (ротический или резонансный выпуск), Vᴳ (скольжение/дифтонг), Cⱽ (мимолетная гласная). Однако верхний индекс S для шипящего звука и верхний индекс Ʞ для мимолетного / пенеттического щелчка не поддерживаются в Unicode 15. Другие базовые латинские подстановочные знаки верхнего индекса для тона и слабых неопределенных звуков, как описано в статье о Международном фонетическом алфавите , в основном поддерживаются. (См. таблицу в предыдущем разделе.)
Кроме того, очень немногие буквы IPA, выходящие за рамки основного латинского алфавита, имеют комбинированные формы надстрочного индекса или поддерживаются как нижние индексы:
В первую очередь для совместимости с более ранними наборами символов Unicode содержит ряд символов, которые составляют надстрочные и нижние индексы с другими символами. [1] В большинстве шрифтов они отображаются гораздо лучше, чем попытки создать эти символы из вышеуказанных символов или с помощью разметки.