stringtranslate.com

Нижние и верхние индексы Юникода

Разница между глифами надстрочного/нижнего индекса и глифами числителя/знаменателя. Во многих популярных шрифтах символы «надстрочного» и «подстрочного индекса» Юникода на самом деле являются глифами числителя и знаменателя.

В Unicode есть индексированные и надстрочные версии ряда символов, включая полный набор арабских цифр . [1] Эти символы позволяют представлять любые полиномиальные , химические и некоторые другие уравнения в виде обычного текста без использования какой-либо разметки , такой как HTML или TeX .

Консорциум World Wide Web и Консорциум Unicode дали рекомендации по выбору между использованием разметки и использованием надстрочных и подстрочных символов:

При использовании в математическом контексте ( MathML ) рекомендуется последовательно использовать разметку стиля для надстрочных и подстрочных индексов […] Однако, когда надстрочные и подстрочные индексы должны отражать семантические различия, легче работать с этими значениями, закодированными в тексте, а не разметка, например, в фонетической или фонематической транскрипции . [2]

Использование

Когда эти символы были добавлены в Юникод, их предполагаемое использование [ 2] заключалось в создании настоящих верхних и нижних индексов, чтобы химические и алгебраические формулы можно было писать без разметки. Таким образом, «H₂O» (с использованием символа нижнего индекса 2) должен быть идентичен «H 2 O» (с индексной разметкой).

В действительности, многие шрифты, включающие эти символы, игнорируют определение Юникода и вместо этого создают цифры для математических глифов числителя и знаменателя , [3] [4] , которые выровнены по верхней и базовой линиям соответственно. При использовании с солидом эти глифы являются обычной заменой диагональных дробей, например, ³/₄ вместо глифа ¾ . Это изменение было сделано потому , что использование разметки не дает хорошего графического приближения дробей (сравните разметку 3/4 с надстрочным/подстрочным индексом ³/₄). Это изменение также делает надстрочные буквы полезными для порядковых индикаторов , поскольку они более точно соответствуют символам ª и º. Однако это делает их неверными для обычных верхних и нижних индексов, поэтому химические и алгебраические формулы лучше отображаются с использованием разметки.

Юникод предполагал, что диагональные дроби будут отображаться с помощью другого механизма: косая черта дроби U + 2044 визуально похожа на солид, но при использовании с обычными цифрами (а не с верхними и нижними индексами) она указывает системе макета, что дробь, такая как ¾ должен отображаться с использованием автоматической замены глифов. [5] [a] Поддержка со стороны пользователей в течение ряда лет была довольно плохой, но браузеры [b] и шрифты все чаще поддерживают предполагаемое поведение Unicode. Выбор поддерживаемых шрифтов показан в таблице ниже. (Они не будут отображаться должным образом, если у вас не установлены шрифты или если ваш браузер не поддерживает такое поведение.)

Блок верхних и нижних индексов

Наиболее распространенные цифры надстрочного индекса (1, 2 и 3) были в ISO-8859-1 и поэтому были перенесены в эти позиции в диапазоне Latin-1 Unicode. Остальные были помещены в специальный раздел Unicode по адресам от U+ 2070 до U+209F. В двух таблицах ниже показаны эти символы. Каждому символу верхнего или нижнего индекса предшествует обычный знак x , чтобы показать нижний/надстрочный индекс. Таблица слева содержит фактические символы Юникода; тот, что справа, содержит эквиваленты с использованием HTML- разметки для нижнего или верхнего индекса.

  Зарезервировано для будущего использования.
  Другие символы из Latin-1, не относящиеся к надстрочным или подстрочным алфавитам.

Другие символы верхнего и нижнего индекса

Юникод версии 15.1 также включает символы нижнего и верхнего индекса, предназначенные для семантического использования, в следующих блоках: [1] [6]

Надстрочный индекс
Объединение верхнего индекса
Индекс
Объединение индекса

Таблицы латиницы, греческого, кириллицы и IPA.

Объединенный стандарт Unicode содержит надстрочные и подстрочные версии подмножества латинских, греческих и кириллических букв. Здесь они расположены в алфавитном порядке для сравнения (или для удобства копирования и вставки). Поскольку эти символы встречаются в разных диапазонах Юникода, они могут иметь разный размер или положение из-за подмены шрифтов в браузере. Заштрихованные ячейки обозначают маленькие заглавные буквы, которые не очень отличаются от минускулов, и греческие буквы, которые неотличимы от латинских, и поэтому не ожидается, что они будут поддерживаться Unicode.

Небольшая пунктуация закодирована. Круглые скобки и восклицательный знак показаны выше. Вопросительный знак может быть создан с помощью надстрочного вопросительного знака и комбинированной точки: ˀ̣ .

  1. ^ ab В некоторых шрифтах ᵅ и ᶹ могут использоваться как надстрочный альфа и ипсилон. ᵋ и ᶥ также официально являются латинскими буквами, но отображаются так же, как греческие.

Многие символы кириллицы были добавлены в Unicode 15 в блоке Cyrillic Extended-D и опубликованы в 2022 году. [8] Блок D был добавлен в бесплатные шрифты Gentium Plus и Andika в версии 6.2 в феврале 2023 года.

См. также строчные буквы в Юникоде .

.mw-parser-output .vanchor>:target~.vanchor-text{background-color:#b1d2ff}Надстрочный индекс IPA

Блок Latin Extended-F был создан для надстрочных букв IPA . Они были добавлены в бесплатные шрифты Gentium Plus и Andika в версии 6.2 в феврале 2023 года.

Символы Юникода для надстрочных (модификаторов) согласных букв IPA и extIPA следующие. Символы звуков со вторичной артикуляцией выделяются в скобках и располагаются под основными буквами:

Диакритический интервал для отрывных согласных, U+2BC, работает с надстрочными буквами, хотя сам по себе не является надстрочным индексом: ᵖʼ ᵗʼ ᶜʼ ᵏˣʼ . Если необходимо провести различие, можно использовать объединяющий апостроф U+315: ᵖ̕ ᵗ̕ ᶜ̕ ᵏˣ̕ . Диакритический интервал следует использовать для базовой буквы с надстрочным выпуском, например [tˢʼ] или [kˣʼ] , где область действия апострофа включает букву без надстрочного индекса, но для обозначения можно использовать комбинированный апостроф U+315. слабо артикулированный отрывной согласный, такой как [ᵗ̕] или [ᵏ̕] , где весь согласный записывается как надстрочный индекс, или вместе с U + 2BC, когда отдельные апострофы имеют область действия над основной буквой и буквами-модификаторами, как в pʼᵏˣ̕ . [9]

Диакритические пробелы, такие как , не могут быть вторично надстрочными в обычном тексте: ᵗʲ . (В этом случае старая буква IPA для [tʲ] , ƫ , имеет вариант верхнего индекса в Юникоде, U+1DB5 , а также боковой вариант U+1DDA , но это обычно не так. случай.)

Символы Юникода для надстрочных (модификаторов) гласных букв IPA, а также расширенной буквы, найденной в английских словарях, следующие. Также поддерживаются две последние устаревшие альтернативные буквы; они выделены в скобки и помещены под стандартными буквами IPA:

Обратите внимание, что буква пара-IPA для центральной сокращенной гласной поддерживается, а ее округленный эквивалент ᵿ — нет. [я]

Предварительно составленные ротические гласные буквы Юникода ɚ ɝ напрямую не поддерживаются. Вместо этого следует использовать ротический диакритический знак: ᵊ˞ ᶟ˞ . [10]

Также поддерживаются две метки длины:

Частично поддерживаются подстановочные знаки надстрочных индексов (полные прописные буквы): например, ᴺC (преназальный согласный), ꟲN (назальный с предзадержкой), Pꟳ (фрикативный выпуск), NᴾF (эпентетический взрывной звук), CVNᵀ (тональный слог), Cᴸ (жидкий или боковой выпуск). , Cᴿ (ротический или резонансный выпуск), Vᴳ (скольжение/дифтонг), Cⱽ (мимолетная гласная). Однако верхний индекс S для шипящего звука и верхний индекс для мимолетного / пенеттического щелчка не поддерживаются в Unicode 15. Другие базовые латинские подстановочные знаки верхнего индекса для тона и слабых неопределенных звуков, как описано в статье о Международном фонетическом алфавите , в основном поддерживаются. (См. таблицу в предыдущем разделе.)

Кроме того, очень немногие буквы IPA, выходящие за рамки основного латинского алфавита, имеют комбинированные формы надстрочного индекса или поддерживаются как нижние индексы:

Составные персонажи

В первую очередь для совместимости с более ранними наборами символов Unicode содержит ряд символов, которые составляют надстрочные и нижние индексы с другими символами. [1] В большинстве шрифтов они отображаются гораздо лучше, чем попытки создать эти символы из вышеуказанных символов или с помощью разметки.

Примечания

  1. ^ Общий обзор и техническая информация о замене глифов (но не конкретно для дробей): GSUB — Таблица замены глифов в спецификации OpenType на сайте Microsoft Typography.
  2. ^ Такие как Chrome , Firefox и Falkon.
  3. ^ Надстрочный индекс ç состоит из надстрочного индекса c и седила , который должен правильно отображаться хорошим шрифтом. Надстрочный индекс c был специально запрошен для этой цели в предложении Unicode L2/03-180.
  4. ^ U + 02E4 ˤ БУКВА-МОДИФИКАТОР МАЛЕНЬКАЯ ПЕРЕВЕРНУТАЯ ГЛОТТАЛЬНАЯ СТОП - это надстрочный вариант U + 0295 ʕ ЛАТИНСКАЯ БУКВА ГЛОТОЧНЫЙ ЗВОННЫЙ FRICATIVE и определена для использования в IPA. Похожий символ U+02C1 ˁ БУКВА-МОДИФИКАТОР ПЕРЕВЕРНУТАЯ ГЛОТТАЛЬНАЯ СТОП представляет собой перевернутую букву U+02C0 ˀ БУКВА-МОДИФИКАТОР ГЛОТТАЛЬНУЮ СТОП , возможно, перевернутый вопросительный знак. Шрифты непоследовательны в том, выглядят ли они по-разному и в чем разница.
  5. ^ В шрифтах Microsoft этот символ был ошибочно оформлен как надстрочный индекс .
  6. ^ U + A71D и A71E были приняты как африканские эквиваленты символов IPA downstep и upstep . Таким образом , соответствие U + A71D букве клика IPA ك является случайным. По совпадению, U + A71E служит надстрочным вариантом ударного согласного extIPA ¡ ; другие ударные буквы, ʬ и ʭ , не имеют поддержки надстрочных индексов в Юникоде.
  7. ^ Не путать с U+1D4C , который является надстрочным индексом (перевернутым, а не перевернутым ɛ).
  8. ^ Не путать с U+1D46 , который представляет собой верхний индекс, повернутый æ.
  9. ^ Теоретически верхний индекс ᵿ можно было бы обрабатывать с помощью диакритического знака штриха ᶷ̵ , если бы не отсутствие поддержки шрифтов.
  10. ^ На самом деле это вьетнамский диакритический знак dấu hỏi , а не IPA, но графически оба представляют собой кастрированные вопросительные знаки.

Рекомендации

  1. ^ abc "UCD: UnicodeData.txt". Стандарт Юникод . Проверено 14 мая 2016 г.
  2. ↑ ab Мартин Дюрст, Асмус Фрейтаг (16 мая 2007 г.). «Юникод в XML и других языках разметки». W3C . Проверено 13 сентября 2010 г.
  3. ^ "Дробь | Пакет Дартс" . Дартс-пакеты . 27 декабря 2021 г. Проверено 21 сентября 2022 г.
  4. ^ «MathML | Элементы общего макета | Дроби» . data2type GmbH (на немецком языке). 30 марта 2021 г. Проверено 13 января 2022 г.[ мертвая ссылка ]
  5. Мартин Дюрст, Асмус Фрейтаг (16 мая 2007 г.). «Фракционный слэш». W3C . Проверено 13 сентября 2010 г.
  6. ^ "UCD: Scripts.txt" . Стандарт Юникод . Проверено 21 сентября 2022 г.
  7. ^ Эверсон, Майкл; Уэст, Эндрю (05.10.2020). «L2/20-268: Пересмотренное предложение о добавлении десяти символов среднеанглийского языка в UCS» (PDF) .
  8. ^ Расширенная кириллица-D. Диапазон: 1E030–1E08F
  9. ^ Кирк Миллер и Майкл Эшби, L2 / 20-253R Запрос Unicode для букв-модификаторов IPA (b), нелегочных.
  10. ^ Кирк Миллер и Майкл Эшби, L2 / 20-252R Запрос Unicode для букв-модификаторов IPA (a), легочный
  11. ^ Сильва, Эдуардо Марин (1 марта 2017 г.). «L2/17-066R: Предложение по кодированию знака Marca Registrada» (PDF) .