Нижние и верхние индексы Юникода

Эта статья содержит специальные символы . Без надлежащей поддержки рендеринга вы можете увидеть вопросительные знаки, прямоугольники и другие символы .

В Unicode есть индексированные и надстрочные версии ряда символов, включая полный набор арабских цифр . ^[1] Эти символы позволяют представлять любые полиномиальные , химические и некоторые другие уравнения в виде обычного текста без использования какой-либо разметки , такой как HTML или TeX .

Консорциум World Wide Web и Консорциум Unicode дали рекомендации по выбору между использованием разметки и использованием надстрочных и подстрочных символов:

При использовании в математическом контексте ( MathML ) рекомендуется последовательно использовать разметку стиля для надстрочных и подстрочных индексов […] Однако, когда надстрочные и подстрочные индексы должны отражать семантические различия, легче работать с этими значениями, закодированными в тексте, а не разметка, например, в фонетической или фонематической транскрипции . ^[2]

Использование

Когда эти символы были добавлены в Юникод, их предполагаемое использование [ ^2] заключалось в создании настоящих верхних и нижних индексов, чтобы химические и алгебраические формулы можно было писать без разметки. Таким образом, «H₂O» (с использованием символа нижнего индекса 2) должен быть идентичен «H ₂ O» (с индексной разметкой).

В действительности, многие шрифты, включающие эти символы, игнорируют определение Юникода и вместо этого создают цифры для математических глифов числителя и знаменателя , ^[3]^[4] , которые выровнены по верхней и базовой линиям соответственно. При использовании с солидом эти глифы являются обычной заменой диагональных дробей, например, ³/₄ вместо глифа ¾ . _Это изменение было сделано потому , что использование разметки не дает хорошего графического приближения дробей (сравните разметку ^3/4 с надстрочным/подстрочным индексом ³/₄). Это изменение также делает надстрочные буквы полезными для порядковых индикаторов , поскольку они более точно соответствуют символам ª и º. Однако это делает их неверными для обычных верхних и нижних индексов, поэтому химические и алгебраические формулы лучше отображаются с использованием разметки.

Юникод предполагал, что диагональные дроби будут отображаться с помощью другого механизма: косая черта дроби U + 2044 визуально похожа на солид, но при использовании с обычными цифрами (а не с верхними и нижними индексами) она указывает системе макета, что дробь, такая как ¾ должен отображаться с использованием автоматической замены глифов. ^[5]^[a] Поддержка со стороны пользователей в течение ряда лет была довольно плохой, но браузеры ^[b] и шрифты все чаще поддерживают предполагаемое поведение Unicode. Выбор поддерживаемых шрифтов показан в таблице ниже. (Они не будут отображаться должным образом, если у вас не установлены шрифты или если ваш браузер не поддерживает такое поведение.)

Блок верхних и нижних индексов

Наиболее распространенные цифры надстрочного индекса (1, 2 и 3) были в ISO-8859-1 и поэтому были перенесены в эти позиции в диапазоне Latin-1 Unicode. Остальные были помещены в специальный раздел Unicode по адресам от U+ 2070 до U+209F. В двух таблицах ниже показаны эти символы. Каждому символу верхнего или нижнего индекса предшествует обычный знак x , чтобы показать нижний/надстрочный индекс. Таблица слева содержит фактические символы Юникода; тот, что справа, содержит эквиваленты с использованием HTML- разметки для нижнего или верхнего индекса.

Зарезервировано для будущего использования.

Другие символы из Latin-1, не относящиеся к надстрочным или подстрочным алфавитам.

Другие символы верхнего и нижнего индекса

Юникод версии 15.1 также включает символы нижнего и верхнего индекса, предназначенные для семантического использования, в следующих блоках: ^[1]^[6]

Надстрочный индекс

Блок Latin-1 Supplement содержит порядковые указатели женского и мужского рода ª и º.
Блок Latin Extended-C содержит один дополнительный верхний индекс, ⱽ.
Блок Latin Extended-D содержит шесть надстрочных индексов: ꝰ ꟲ ꟳ ꟴ ꟸ ꟹ.
Блок Latin Extended-E содержит пять верхних индексов: ꭜ ꭝ ꭞ ꭟ ꭩ.
Блок Latin Extended-F полностью состоит из надстрочных букв IPA : 𐞁 𐞂 𐞃 𐞄 𐞅 𐞇 𐞈 𐞉 𐞊 𐞋 𐞌 𐞍 𐞎 𐞏 𐞐 𐞑 𐞒 𐞓 𐞔 𐞕 𐞖 𐞗 𐞘 𐞙 𐞚 𐞛 𐞜 𐞝 𐞞 𐞟 𐞠 𐞡 𐞢 𐞣 𐞤 𐞥 𐞦 𐞧 𐞨 𐞩 𐞪 𐞫 𐞬 𐞭 𐞮 𐞯 𐞰 𐞲 𐞳 𐞴 𐞵 𐞶 𐞷 𐞸 𐞹 𐞺.
В блоке букв-модификаторов интервала есть надстрочные буквы и символы, используемые для фонетической транскрипции: ʰ ʱ ʲ ʳ ʴ ʵ ʶ ʷ ʸ ˀ ˁ ˠ ˡ ˢ ˣ ˤ.
Блок фонетических расширений имеет несколько надстрочных букв и символов: Latin/IPA ᴬ ᴭ ᴮ ᴯ ᴰ ᴱ ᴲ ᴳ ᴴ ᴵ ᴶ ᴷ ᴸ ᴹ ᴺ ᴻ ᴼ ᴽ ᴾ ᴿ ᵀ ᵁ ᵂ ᵃ ᵄ ᵅ ᵆ ᵇ ᵈ ᵉ ᵊ ᵋ ᵌ ᵍ ᵏ ᵐ ᵑ ᵒ ᵓ ᵖ ᵗ ᵘ ᵚ ᵛ, греческий ᵝ ᵞ ᵟ ᵠ ᵡ, кириллица ᵸ, другое ᵎ ᵔ ᵕ ᵙ ᵜ. Они предназначены для обозначения вторичной артикуляции .
В блоке «Дополнение к фонетическим расширениям» есть еще несколько: Latin/IPA ᶛ ᶜ ᶝ ᶞ ᶟ ᶠ ᶡ ᶢ ᶣ ᶤ ᶥ ᶦ ᶧ ᶨ ᶩ ᶪ ᶫ ᶬ ᶭ ᶮ ᶯ ᶰ ᶱ ᶲ ᶳ ᶴ ᶵ ᶶ ᶷ ᶸ ᶹ ᶺ ᶻ ᶼ ᶽ ᶾ, греческий ᶿ.
Блок Cyrillic Extended-B содержит два надстрочных кириллических индекса: ꚜ ꚝ.
Блок Cyrillic Extended-D содержит много кириллических надстрочных индексов: 𞀰 𞀱 𞀲 𞀳 𞀷 𞀵 𞀶 𞀷 𞀸 𞀹 𞀺 𞀻 𞀼 𞀽 𞀾 𞀿 𞁀 𞁁 𞁂 𞁃 𞁄 𞁅 𞁆 𞁇 𞁈 𞁉 𞁊 𞁋 𞁌 𞁍 𞁎 𞁏 𞁐 𞁫 𞁬 𞁭.
Грузинский блок содержит одну надстрочную букву Мхедрули : ჼ.
Блок Канбун имеет надстрочные символы аннотации, используемые в японских копиях классических китайских текстов: ㆒ ㆓ ㆔ ㆕ ㆖ ㆗ ㆘ ㆙ ㆚ ㆛ ㆜ ㆝ ㆞ ㆟.
В блоке Тифинаг есть одна надстрочная буква: ⵯ.
Унифицированное слоговое письмо канадских аборигенов и его расширенные блоки содержат несколько в основном согласных букв для обозначения слоговой коды , называемой финалами, а также некоторые символы, обозначающие средний слог, известный как медиалы: основной блок ᐜ ᐝ ᐞ ᐟ ᐠ ᐡ ᐢ ᐣ ᐤ ᐥ ᐦ ᐧ ᐨ ᐩ ᐪ ᑉ ᑊ ᑋ ᒃ ᒄ ᒡ ᒢ ᒻ ᒼ ᒽ ᒾ ᓐ ᓑ ᓒ ᓪ ᓫ ??? ᕑ ᕝ ᕪ ᕻ ᕯ ᕽ ᖅ ᖕ ᖖ ᖟ ᖦ ᖮ ᗮ ᘁ ᙆ ᙇ ᙚ ᙾ ᙿ ; Расширенный блок: ᣔ ᣕ ᣖ ᣗ ᣘ ᣙ ᣚ ᣛ ᣜ ᣝ ᣞ ᣟ ᣳ ᣴ ᣵ.

Объединение верхнего индекса

Блок «Объединение диакритических знаков» содержит диакритические знаки средневековых надстрочных букв. Эти буквы пишутся непосредственно над другими буквами, встречающимися в средневековых германских рукописях, поэтому в этих глифах нет пробелов, например uͤ. Они показаны здесь над заполнителем в виде пунктирного круга ◌: ◌ͣ ◌ͤ ◌ͥ ◌ͦ ◌ͧ ◌ͨ ◌ͩ ◌ͪ ◌ͫ ◌ͬ ◌ͭ ◌ͮ ◌ͯ.
Расширенный блок «Объединение диакритических знаков» содержит две объединяющие буквы для лингвистической транскрипции шотландского языка (◌ᪿ ◌ᫀ) и три объединенные островные буквы для среднеанглийского Ormulum (◌ᫌ ◌ᫍ ◌ᫎ). ^[7]
Блок «Дополнение к комбинированным диакритическим знакам» содержит дополнительные диакритические знаки средневековых надстрочных букв, достаточные для завершения основного строчного латинского алфавита, за исключением j, q и y, нескольких маленьких заглавных букв и лигатур (ae, ao, av), а также дополнительных букв: ◌᷒ ◌ ᷓ ◌ᷔ ◌ᷕ ◌ᷖ ◌ᷗ ◌ᷘ ◌ᷙ ◌ᷚ ◌ᷛ ◌ᷜ ◌ᷝ ◌ᷞ ◌ᷟ ◌ᷠ ◌ᷡ ◌ᷢ ◌ᷣ ◌ᷤ ◌ᷥ ◌ᷦ ◌ᷧ ◌ᷨ ◌ᷪ ◌ᷫ ◌ᷬ ◌ ᷭ ◌ᷮ ◌ᷯ ◌ᷰ ◌ᷱ ◌ᷲ ◌ᷳ ◌ᷴ, греческий ◌ᷩ.
Блоки Cyrillic Extended-A и -B содержат несколько диакритических знаков средневековых надстрочных букв, достаточных для завершения основного нижнего регистра кириллицы, используемого в церковнославянских текстах, а также включает дополнительную лигатуру (ст): ◌ⷠ ◌ⷡ ◌ⷢ ◌ⷣ ◌ⷤ ◌ ⷥ ◌ⷦ ◌ⷧ ◌ⷨ ◌ⷩ ◌ⷪ ◌ⷫ ◌ⷬ ◌ⷭ ◌ⷮ ◌ⷯ ◌ⷰ ◌ⷱ ◌ⷲ ◌ⷳ ◌ⷴ ◌ⷵ ◌ⷶ ◌ⷷ ◌ⷸ ◌ⷹ ◌ⷺ ◌ⷻ ◌ⷼ ◌ⷽ ◌ ⷾ ◌ⷿ ◌ꙴ ◌ꙵ ◌ꙶ ◌ꙷ ◌ꙸ ◌ꙹ ◌ꙺ ◌ꙻ ◌ꚞ ◌ꚟ.
Блок Cyrillic Extended-D имеет один дополнительный объединяющий символ і: ◌𞂏.

Индекс

Блок Latin Extended-C содержит один дополнительный индекс ⱼ.
Блок фонетических расширений имеет несколько нижних букв и символов: латинский/IPA ᵢ ᵣ ᵤ ᵥ и греческий ᵦ ᵧ ᵨ ᵩ ᵪ.
Блок Cyrillic Extended-D также содержит множество кириллических индексов: 𞁑 𞁒 𞁓 𞁔 𞁕 𞁖 𞁗 𞁘 𞁙 𞁚 𞁛 𞁜 𞁝 𞁞 𞁟 𞁠 𞁡 𞁢 𞁣 𞁤 𞁥 𞁦 𞁧 𞁨 𞁩 𞁪.

Объединение индекса

Блок «Дополнение к комбинированным диакритическим знакам» содержит объединяющий индекс: ◌᷊.

Таблицы латиницы, греческого, кириллицы и IPA.

Объединенный стандарт Unicode содержит надстрочные и подстрочные версии подмножества латинских, греческих и кириллических букв. Здесь они расположены в алфавитном порядке для сравнения (или для удобства копирования и вставки). Поскольку эти символы встречаются в разных диапазонах Юникода, они могут иметь разный размер или положение из-за подмены шрифтов в браузере. Заштрихованные ячейки обозначают маленькие заглавные буквы, которые не очень отличаются от минускулов, и греческие буквы, которые неотличимы от латинских, и поэтому не ожидается, что они будут поддерживаться Unicode.

Небольшая пунктуация закодирована. Круглые скобки и восклицательный знак показаны выше. Вопросительный знак может быть создан с помощью надстрочного вопросительного знака и комбинированной точки: ⟨ ˀ̣ ⟩ .

^ ab В некоторых шрифтах ᵅ и ᶹ могут использоваться как надстрочный альфа и ипсилон. ᵋ и ᶥ также официально являются латинскими буквами, но отображаются так же, как греческие.

Многие символы кириллицы были добавлены в Unicode 15 в блоке Cyrillic Extended-D и опубликованы в 2022 году. ^[8] Блок D был добавлен в бесплатные шрифты Gentium Plus и Andika в версии 6.2 в феврале 2023 года.

См. также строчные буквы в Юникоде .

.mw-parser-output .vanchor>:target~.vanchor-text{background-color:#b1d2ff}Надстрочный индекс IPA

Блок Latin Extended-F был создан для надстрочных букв IPA . Они были добавлены в бесплатные шрифты Gentium Plus и Andika в версии 6.2 в феврале 2023 года.

Символы Юникода для надстрочных (модификаторов) согласных букв IPA и extIPA следующие. Символы звуков со вторичной артикуляцией выделяются в скобках и располагаются под основными буквами:

Диакритический интервал для отрывных согласных, U+2BC, работает с надстрочными буквами, хотя сам по себе не является надстрочным индексом: ⟨ ᵖʼ ᵗʼ ᶜʼ ᵏˣʼ ⟩ . Если необходимо провести различие, можно использовать объединяющий апостроф U+315: ⟨ ᵖ̕ ᵗ̕ ᶜ̕ ᵏˣ̕ ⟩ . Диакритический интервал следует использовать для базовой буквы с надстрочным выпуском, например [tˢʼ] или [kˣʼ] , где область действия апострофа включает букву без надстрочного индекса, но для обозначения можно использовать комбинированный апостроф U+315. слабо артикулированный отрывной согласный, такой как [ᵗ̕] или [ᵏ̕] , где весь согласный записывается как надстрочный индекс, или вместе с U + 2BC, когда отдельные апострофы имеют область действия над основной буквой и буквами-модификаторами, как в ⟨ pʼᵏˣ̕ ⟩ . ^[9]

Диакритические пробелы, такие как ⟨ tʲ ⟩ , не могут быть вторично надстрочными в обычном тексте: ⟨ ᵗʲ ⟩ . (В этом случае старая буква IPA для [tʲ] , ⟨ ƫ ⟩ , имеет вариант верхнего индекса в Юникоде, U+1DB5 ⟨ ᶵ ⟩ , а также боковой вариант U+1DDA ⟨ ᶪ ⟩ , но это обычно не так. случай.)

Символы Юникода для надстрочных (модификаторов) гласных букв IPA, а также расширенной буквы, найденной в английских словарях, следующие. Также поддерживаются две последние устаревшие альтернативные буквы; они выделены в скобки и помещены под стандартными буквами IPA:

Обратите внимание, что буква пара-IPA для центральной сокращенной гласной ⟨ ᵻ ⟩ поддерживается, а ее округленный эквивалент ⟨ ᵿ ⟩ — нет. ^[я]

Предварительно составленные ротические гласные буквы Юникода ⟨ ɚ ɝ ⟩ напрямую не поддерживаются. Вместо этого следует использовать ротический диакритический знак: ⟨ ᵊ˞ ᶟ˞ ⟩ . ^[10]

Также поддерживаются две метки длины:

Частично поддерживаются подстановочные знаки надстрочных индексов (полные прописные буквы): например, ᴺC (преназальный согласный), ꟲN (назальный с предзадержкой), Pꟳ (фрикативный выпуск), NᴾF (эпентетический взрывной звук), CVNᵀ (тональный слог), Cᴸ (жидкий или боковой выпуск). , Cᴿ (ротический или резонансный выпуск), Vᴳ (скольжение/дифтонг), Cⱽ (мимолетная гласная). Однако верхний индекс S для шипящего звука и верхний индекс Ʞ для мимолетного / пенеттического щелчка не поддерживаются в Unicode 15. Другие базовые латинские подстановочные знаки верхнего индекса для тона и слабых неопределенных звуков, как описано в статье о Международном фонетическом алфавите , в основном поддерживаются. (См. таблицу в предыдущем разделе.)

Кроме того, очень немногие буквы IPA, выходящие за рамки основного латинского алфавита, имеют комбинированные формы надстрочного индекса или поддерживаются как нижние индексы:

Составные персонажи

В первую очередь для совместимости с более ранними наборами символов Unicode содержит ряд символов, которые составляют надстрочные и нижние индексы с другими символами. ^[1] В большинстве шрифтов они отображаются гораздо лучше, чем попытки создать эти символы из вышеуказанных символов или с помощью разметки.

Блок дополнения Latin-1 содержит предварительно составленные дроби ½, ¼ и ¾. В этом блоке также находятся авторские права © и зарегистрированные товарные знаки ®.
Блок общей пунктуации содержит знак промилле ‰ и знак десятитысячных ‱, а базовая латиница содержит знак процента %.
Блок Числовых форм содержит несколько заранее составленных дробей: ⅐ ⅑ ⅒ ⅓ ⅔ ⅕ ⅖ ⅗ ⅘ ⅙ ⅚ ⅛ ⅜ ⅝ ⅞ ⅟ ↉.
Блок Буквенные символы содержит несколько символов, состоящих из подстрочных и надстрочных символов: ℀ ℁ ℅ ℆ № ℠ ™ ⅍.
Блок «Закрытое буквенно-цифровое дополнение» содержит три надстрочных сокращения 🅪 🅫 🅬: MC для торговой марки ( торговая марка ), MD для торговой марки ( зарегистрированная торговая марка ), оба используются в Канаде; MR для marca registrada (зарегистрированная торговая марка) в испано- и португалоязычных странах. ^[11]
Блок «Разное техническое» имеет один дополнительный индекс, индекс 10 (⏨), для целей научного обозначения .
Унифицированное слоговое письмо канадских аборигенов и его расширенные блоки содержат несколько букв, составленных с надстрочными буквами для обозначения расширенных звуковых значений: Основной блок ᔍ ᔎ ᔏ ᔧ ᕅ ᕔ ᕿ ᖀ ᖁ ᖂ ᖃ ᖄ ᖎ ᖏ ᖐ ᖑ ᖒ ᖓ ᖔ ᙯ ᙰ ᙱ ᙲ ᙳ ᙴ ᙵ ᙶ, Расширенный блок ᢰ ᢱ ᢲ ᢳ ᢴ ᢵ ᢶ ᢷ ᢸ ᢹ ᢺ ᢻ ᢼ ᢽ ᢾ ᢿ ᣀ ᣁ ᣂ ᣃ ᣄ ᣅ.

Примечания

^ Общий обзор и техническая информация о замене глифов (но не конкретно для дробей): GSUB — Таблица замены глифов в спецификации OpenType на сайте Microsoft Typography.
^ Такие как Chrome , Firefox и Falkon.
^ Надстрочный индекс ⟨ ç ⟩ состоит из надстрочного индекса c и седила , который должен правильно отображаться хорошим шрифтом. Надстрочный индекс c был специально запрошен для этой цели в предложении Unicode L2/03-180.
^ U + 02E4 ˤ БУКВА-МОДИФИКАТОР МАЛЕНЬКАЯ ПЕРЕВЕРНУТАЯ ГЛОТТАЛЬНАЯ СТОП - это надстрочный вариант U + 0295 ʕ ЛАТИНСКАЯ БУКВА ГЛОТОЧНЫЙ ЗВОННЫЙ FRICATIVE и определена для использования в IPA. Похожий символ U+02C1 ˁ БУКВА-МОДИФИКАТОР ПЕРЕВЕРНУТАЯ ГЛОТТАЛЬНАЯ СТОП представляет собой перевернутую букву U+02C0 ˀ БУКВА-МОДИФИКАТОР ГЛОТТАЛЬНУЮ СТОП , возможно, перевернутый вопросительный знак. Шрифты непоследовательны в том, выглядят ли они по-разному и в чем разница.
^ В шрифтах Microsoft этот символ был ошибочно оформлен как надстрочный индекс ⟨ ꬸ ⟩ .
^ U + A71D ⟨ ꜝ ⟩ и A71E ⟨ ꜞ ⟩ были приняты как африканские эквиваленты символов IPA ⟨ ꜜ ⟩ downstep и ⟨ ꜛ ⟩ upstep . Таким образом , соответствие U + A71D ⟨ ꜝ ⟩ букве клика IPA ⟨ ك ⟩ является случайным. По совпадению, U + A71E ⟨ ꜞ ⟩ служит надстрочным вариантом ударного согласного extIPA ⟨ ¡ ⟩ ; другие ударные буквы, ⟨ ʬ ⟩ и ⟨ ʭ ⟩ , не имеют поддержки надстрочных индексов в Юникоде.
^ Не путать с U+1D4C ⟨ ᵌ ⟩ , который является надстрочным индексом ᴈ (перевернутым, а не перевернутым ɛ).
^ Не путать с U+1D46 ⟨ ᵆ ⟩ , который представляет собой верхний индекс, повернутый æ.
^ Теоретически верхний индекс ⟨ ᵿ ⟩ можно было бы обрабатывать с помощью диакритического знака штриха ⟨ ᶷ̵ ⟩ , если бы не отсутствие поддержки шрифтов.
^ На самом деле это вьетнамский диакритический знак dấu hỏi , а не IPA, но графически оба представляют собой кастрированные вопросительные знаки.