В Unicode имеются подстрочные и надстрочные версии ряда символов, включая полный набор арабских цифр . [1] Эти символы позволяют представлять любые полиномиальные , химические и некоторые другие уравнения в виде обычного текста без использования какой-либо формы разметки, такой как HTML или TeX .
Консорциум Всемирной паутины и Консорциум Unicode дали рекомендации по выбору между использованием разметки и использованием надстрочных и подстрочных символов:
При использовании в математическом контексте ( MathML ) рекомендуется последовательно использовать стилистическую разметку для надстрочных и подстрочных индексов […] Однако, когда надстрочные и подстрочные индексы должны отражать семантические различия, проще работать с этими значениями, закодированными в тексте, а не с разметкой, например, в фонетической или фонематической транскрипции . [2]
Предполагаемое использование [2] при добавлении этих символов в Unicode состояло в создании настоящих верхних и нижних индексов, чтобы химические и алгебраические формулы могли быть записаны без разметки. Таким образом, "H₂O" (используя символ нижнего индекса 2) должен быть идентичен "H 2 O" (с разметкой нижнего индекса).
В действительности, многие шрифты, включающие эти символы, игнорируют определение Unicode и вместо этого разрабатывают цифры для математических глифов числителя и знаменателя , [3] [4], которые выровнены с линией заглавной буквы и базовой линией соответственно. При использовании с солидусом эти глифы являются обычной заменой диагональных дробей, таких как ³/₄ для глифа ¾. Это изменение было сделано, поскольку использование разметки не дает хорошего графического приближения дробей (сравните разметку 3 / 4 с надстрочным/подстрочным индексом ³/₄). Изменение также делает надстрочные буквы полезными для порядковых указателей , более точно соответствуя символам ª и º. Однако это делает их некорректными для обычных надстрочных и подстрочных индексов, и поэтому химические и алгебраические формулы лучше отображаются с использованием разметки.
Unicode подразумевал, что диагональные дроби будут отображаться с помощью другого механизма: дробная косая черта U+2044 визуально похожа на косую черту, но при использовании с обычными цифрами (не с надстрочными и подстрочными индексами) она указывает системе макета, что дробь, например ¾, должна отображаться с использованием автоматической подстановки глифов. [5] [a] Поддержка со стороны пользователя в течение ряда лет была довольно слабой, но шрифты, браузеры, [b] текстовые процессоры, [c] программное обеспечение для настольных издательских систем [d] и другие все больше поддерживают предполагаемое поведение Unicode.
Выбор поддерживаемых шрифтов представлен в таблице ниже. (Они не будут отображаться правильно, если у вас не установлены шрифты или если ваш браузер не поддерживает такое поведение.)
Наиболее распространенные надстрочные цифры (1, 2 и 3) были в ISO-8859-1 и поэтому были перенесены в эти позиции в диапазоне Latin-1 Unicode. Остальные были помещены в специальный раздел Unicode в U+ 2070 до U+209F. Две таблицы ниже показывают эти символы. Каждому надстрочному или подстрочному символу предшествует обычный x , чтобы показать подстрочный/надстрочный индекс. Таблица слева содержит фактические символы Unicode; таблица справа содержит эквиваленты с использованием разметки HTML для подстрочного или надстрочного индекса.
Версия Unicode 16.0 также включает в себя подстрочные и надстрочные символы, предназначенные для семантического использования, в следующих блоках: [1] [6]
В консолидированном виде стандарт Unicode содержит надстрочные и подстрочные версии подмножества латинских, греческих и кириллических букв. Здесь они расположены в алфавитном порядке для сравнения (или для удобства копирования и вставки). Поскольку эти символы появляются в разных диапазонах Unicode, они могут не иметь одинакового размера или положения из-за подстановки шрифтов в браузере. Затененные ячейки обозначают маленькие заглавные буквы, которые не очень отличаются от минускулов, и греческие буквы, которые неотличимы от латинских, и поэтому не должны поддерживаться Unicode.
Мало знаков препинания кодируется. Скобки показаны выше в базовом блоке выше, а восклицательный знак ⟨ ꜝ ⟩ показан в таблице IPA ниже. Вопросительный знак может быть создан с помощью надстрочного гелевого вопросительного знака и объединяющей точки: ⟨ ˀ̣ ⟩, хотя некоторые шрифты не отображают его правильно.
Дополнительные заглавные буквы верхнего индекса — ᴭ ᴯ ᴲ ᴻ. Некоторые из них являются малыми заглавными буквами в исходных документах предложений Unicode.
Заглавная буква верхнего индекса s была предложена для будущей версии стандарта Unicode . [8] [9]
Версии заглавных букв A и E были предложены для будущей версии стандарта Unicode. [10] [11] [9]
Для будущей версии стандарта Unicode были предложены надстрочные версии греческих букв psi и omega. [10] [9]
Многие символы кириллицы были добавлены в блок Cyrillic Extended-D , который был добавлен в бесплатные шрифты Gentium Plus и Andika с версией 6.2 в феврале 2023 года.
См. также малые заглавные буквы в Unicode .
Блок Latin Extended-F был создан для оставшихся надстрочных букв IPA . Они поддерживаются бесплатными шрифтами Gentium Plus и Andika . Дополнительные надстрочные символы для исторических и пара-IPA букв были предложены для будущих версий стандарта Unicode. [11] [9]
Символы Unicode для надстрочных (модификаторных) согласных букв IPA и extIPA следующие. Весь блок Latin Extended-F посвящен надстрочным буквам IPA. Символы для звуков со вторичной артикуляцией заключены в скобки и размещены под базовыми буквами.
Диакритический знак для отрезающих согласных U+2BC работает с надстрочными буквами, хотя сам по себе не является надстрочным: ⟨ ᵖʼ ᵗʼ ᶜʼ ᵏˣʼ ⟩. Если необходимо провести различие, можно использовать объединяющий апостроф U+315: ⟨ ᵖ̕ ᵗ̕ ᶜ̕ ᵏˣ̕ ⟩. Промежуточный диакритический знак следует использовать для базовой буквы с надстрочным освобождением, например, [tˢʼ] или [kˣʼ] , где область действия апострофа включает ненадстрочную букву, но объединяющий апостроф U+315 может использоваться для обозначения слабо артикулированного абруптивного согласного, например, [ᵗ̕] или [ᵏ̕] , где весь согласный пишется как надстрочный, или вместе с U+2BC, когда отдельные апострофы имеют область действия над базовой и модифицирующей буквами, как в ⟨ pʼᵏˣ̕ ⟩. [14]
Пробелы в виде диакритических знаков, как в ⟨ tʲ ⟩, не могут быть вторично надстрочными в обычном тексте: ⟨ ᵗʲ ⟩. (В этом случае старая буква МФА для [tʲ] , ⟨ ƫ ⟩, имеет надстрочный вариант в Unicode, U+1DB5 ⟨ ᶵ ⟩, но это не всегда так.)
Среди старых букв, ⟨ ꜧ ⟩ (U+A727) была графическим вариантом ⟨ ɮ ⟩. Ее надстрочный индекс поддерживается в ⟨ ꭜ ⟩ (U+AB5C). Наиболее распространенные буквы с небным крючком также поддерживаются; они отображаются в таблице выше. В МФА когда-то был своеобразный завиток на некоторых палатализованных буквах: это фрикативные буквы ⟨ ʆ ʓ ⟩. Их надстрочные формы были предложены для будущей версии стандарта Unicode. [11] [9] Устаревшие буквы ⟨ ƞ ⟩ и ⟨ ɼ ⟩ также были предложены для будущей версии стандарта Unicode. [11] [9]
Среди букв пара-IPA синологический верхний индекс ⟨ ȡ ȴ ȵ ȶ ⟩ был предложен для будущей версии стандарта Unicode. [10] [9] Верхние индексы бантуистских губно-зубных взрывных согласных ⟨ ȹ ⟩ и ⟨ ȸ ⟩ были предложены для будущей версии стандарта Unicode. [10] [9] Центральные полугласные ⟨ ɉ ⟩, ɥ̶ и w̶ также были предложены для будущей версии стандарта Unicode. [10] [9]
Для будущей версии стандарта Unicode были предложены старые щелкающие буквы. [15] [9]
Символы Unicode для надстрочных (модификаторных) гласных букв IPA, а также пара расширенных букв ⟨ ᵻ ᵿ ⟩, которые можно найти в английских словарях, приведены ниже. Недавно выведенные из употребления альтернативные буквы, такие как ⟨ ɩ ɷ ⟩, также поддерживаются; они заключены в скобки и размещены под стандартными буквами IPA:
Составные ротические гласные буквы Unicode ⟨ ɚ ɝ ⟩ напрямую не поддерживаются. Вместо них следует использовать ротический диакритический знак U+02DE ◌˞ : ⟨ ᵊ˞ ᶟ˞ ⟩. [16]
⟨ ɜ ⟩ и ⟨ ᶟ ⟩ перевернуты ɛ . Более старая IPA, перевернутая ɛ , ⟨ ᴈ ⟩, также поддерживается, на U+1D4C ⟨ ᵌ ⟩. Однако, ненадолго воскрешенная гласная буква ⟨ ʚ ⟩ (U+029A) не поддерживается, поддерживается только ее перевернутая замена ⟨ ɞ ⟩.
Среди старых букв ⟨ ᴜ ⟩ (U+1D1C), графический вариант ⟨ ʊ ⟩, поддерживается в ⟨ ᶸ ⟩ (U+1DB8).
Среди букв пара-IPA для будущей версии стандарта Unicode были предложены синологические надстрочные символы ⟨ ɿ ʅ ʮ ʯ ⟩. [10] [9]
Также поддерживаются две метки длины:
Они используются для добавления длины другому надстрочному индексу, например, для долгого придыхания.
Поддерживаются в основном символы подстановки надстрочного индекса (полные заглавные буквы): например, ᴺC (преназализованный согласный), ꟲN (престопный носовой), Pꟳ (фрикативное освобождение), NᴾF (вставной взрывной), CVNᵀ (тононосный слог), Cᴸ (плавное или боковое освобождение), Cᴿ (ротическое или резонансное освобождение), Vᴳ (нескользящее/дифтонг), Cⱽ (мимолетная гласная). Символ подстановки надстрочного индекса S для свистящего освобождения был предложен для будущей версии стандарта Unicode; [8] [9] символ подстановки надстрочного индекса Ʞ для мимолетного/вставного щелчка не был предложен. В основном поддерживаются другие основные латинские символы подстановки надстрочного индекса для тона и слабых неопределенных звуков, описанные в статье о Международном фонетическом алфавите . (См. таблицу в предыдущем разделе.)
Кроме того, очень немногие буквы МФА, выходящие за рамки основного латинского алфавита, имеют комбинационные формы или поддерживаются в качестве нижних индексов:
В первую очередь для совместимости с более ранними наборами символов Unicode содержит ряд символов, которые образуют надстрочные и подстрочные индексы с другими символами. [1] В большинстве шрифтов они отображаются гораздо лучше, чем попытки построить эти символы из вышеуказанных символов или с помощью разметки.