stringtranslate.com

Подстрочные и надстрочные индексы Unicode

Разница между надстрочными/подстрочными глифами и глифами числителя/знаменателя. Во многих популярных шрифтах символы «надстрочного» и «подстрочного» индекса Unicode на самом деле являются глифами числителя и знаменателя.

В Unicode имеются подстрочные и надстрочные версии ряда символов, включая полный набор арабских цифр . [1] Эти символы позволяют представлять любые полиномиальные , химические и некоторые другие уравнения в виде обычного текста без использования какой-либо формы разметки, такой как HTML или TeX .

Консорциум Всемирной паутины и Консорциум Unicode дали рекомендации по выбору между использованием разметки и использованием надстрочных и подстрочных символов:

При использовании в математическом контексте ( MathML ) рекомендуется последовательно использовать стилистическую разметку для надстрочных и подстрочных индексов […] Однако, когда надстрочные и подстрочные индексы должны отражать семантические различия, проще работать с этими значениями, закодированными в тексте, а не с разметкой, например, в фонетической или фонематической транскрипции . [2]

Использует

Предполагаемое использование [2] при добавлении этих символов в Unicode состояло в создании настоящих верхних и нижних индексов, чтобы химические и алгебраические формулы могли быть записаны без разметки. Таким образом, "H₂O" (используя символ нижнего индекса 2) должен быть идентичен "H 2 O" (с разметкой нижнего индекса).

В действительности, многие шрифты, включающие эти символы, игнорируют определение Unicode и вместо этого разрабатывают цифры для математических глифов числителя и знаменателя , [3] [4], которые выровнены с линией заглавной буквы и базовой линией соответственно. При использовании с солидусом эти глифы являются обычной заменой диагональных дробей, таких как ³/₄ для глифа ¾. Это изменение было сделано, поскольку использование разметки не дает хорошего графического приближения дробей (сравните разметку 3 / 4 с надстрочным/подстрочным индексом ³/₄). Изменение также делает надстрочные буквы полезными для порядковых указателей , более точно соответствуя символам ª и º. Однако это делает их некорректными для обычных надстрочных и подстрочных индексов, и поэтому химические и алгебраические формулы лучше отображаются с использованием разметки.

Unicode подразумевал, что диагональные дроби будут отображаться с помощью другого механизма: дробная косая черта U+2044 визуально похожа на косую черту, но при использовании с обычными цифрами (не с надстрочными и подстрочными индексами) она указывает системе макета, что дробь, например ¾, должна отображаться с использованием автоматической подстановки глифов. [5] [a] Поддержка со стороны пользователя в течение ряда лет была довольно слабой, но шрифты, браузеры, [b] текстовые процессоры, [c] программное обеспечение для настольных издательских систем [d] и другие все больше поддерживают предполагаемое поведение Unicode.

Выбор поддерживаемых шрифтов представлен в таблице ниже. (Они не будут отображаться правильно, если у вас не установлены шрифты или если ваш браузер не поддерживает такое поведение.)

Блок надстрочных и подстрочных индексов

Наиболее распространенные надстрочные цифры (1, 2 и 3) были в ISO-8859-1 и поэтому были перенесены в эти позиции в диапазоне Latin-1 Unicode. Остальные были помещены в специальный раздел Unicode в U+ 2070 до U+209F. Две таблицы ниже показывают эти символы. Каждому надстрочному или подстрочному символу предшествует обычный x , чтобы показать подстрочный/надстрочный индекс. Таблица слева содержит фактические символы Unicode; таблица справа содержит эквиваленты с использованием разметки HTML для подстрочного или надстрочного индекса.

  Зарезервировано для будущего использования.
  Другие символы Latin-1, не относящиеся к надстрочным или подстрочным индексам.

Другие надстрочные и подстрочные символы

Версия Unicode 16.0 также включает в себя подстрочные и надстрочные символы, предназначенные для семантического использования, в следующих блоках: [1] [6]

Надстрочный индекс
Объединение надстрочных знаков
Подстрочный индекс
Объединение нижнего индекса

Таблицы латиницы, греческого, кириллицы и МФА

В консолидированном виде стандарт Unicode содержит надстрочные и подстрочные версии подмножества латинских, греческих и кириллических букв. Здесь они расположены в алфавитном порядке для сравнения (или для удобства копирования и вставки). Поскольку эти символы появляются в разных диапазонах Unicode, они могут не иметь одинакового размера или положения из-за подстановки шрифтов в браузере. Затененные ячейки обозначают маленькие заглавные буквы, которые не очень отличаются от минускулов, и греческие буквы, которые неотличимы от латинских, и поэтому не должны поддерживаться Unicode.

Мало знаков препинания кодируется. Скобки показаны выше в базовом блоке выше, а восклицательный знак ⟨ ⟩ показан в таблице IPA ниже. Вопросительный знак может быть создан с помощью надстрочного гелевого вопросительного знака и объединяющей точки: ⟨ ˀ̣ ⟩, хотя некоторые шрифты не отображают его правильно.

Дополнительные заглавные буквы верхнего индекса — ᴭ ᴯ ᴲ ᴻ. Некоторые из них являются малыми заглавными буквами в исходных документах предложений Unicode.
Заглавная буква верхнего индекса s была предложена для будущей версии стандарта Unicode . [8] [9]
Версии заглавных букв A и E были предложены для будущей версии стандарта Unicode. [10] [11] [9]

  1. ^ ab В некоторых шрифтах латинская альфа ᵅ и ипсилон ᶹ могут использоваться в качестве надстрочных греческих букв альфа и ипсилон. ᵋ и ᶥ также официально являются латинскими буквами, но отображаются так же, как греческие.

Для будущей версии стандарта Unicode были предложены надстрочные версии греческих букв psi и omega. [10] [9]

Многие символы кириллицы были добавлены в блок Cyrillic Extended-D , который был добавлен в бесплатные шрифты Gentium Plus и Andika с версией 6.2 в феврале 2023 года.

См. также малые заглавные буквы в Unicode .

.mw-parser-output .vanchor>:target~.vanchor-text{background-color:#b1d2ff}@media screen{html.skin-theme-clientpref-night .mw-parser-output .vanchor>:target~.vanchor-text{background-color:#0f4dc9}}@media screen and (prefers-color-scheme:dark){html.skin-theme-clientpref-os .mw-parser-output .vanchor>:target~.vanchor-text{background-color:#0f4dc9}}Надстрочный индекс IPA

Блок Latin Extended-F был создан для оставшихся надстрочных букв IPA . Они поддерживаются бесплатными шрифтами Gentium Plus и Andika . Дополнительные надстрочные символы для исторических и пара-IPA букв были предложены для будущих версий стандарта Unicode. [11] [9]

Согласные буквы

Символы Unicode для надстрочных (модификаторных) согласных букв IPA и extIPA следующие. Весь блок Latin Extended-F посвящен надстрочным буквам IPA. Символы для звуков со вторичной артикуляцией заключены в скобки и размещены под базовыми буквами.

Диакритический знак для отрезающих согласных U+2BC работает с надстрочными буквами, хотя сам по себе не является надстрочным: ⟨ ᵖʼ ᵗʼ ᶜʼ ᵏˣʼ ⟩. Если необходимо провести различие, можно использовать объединяющий апостроф U+315: ⟨ ᵖ̕ ᵗ̕ ᶜ̕ ᵏˣ̕ ⟩. Промежуточный диакритический знак следует использовать для базовой буквы с надстрочным освобождением, например, [tˢʼ] или [kˣʼ] , где область действия апострофа включает ненадстрочную букву, но объединяющий апостроф U+315 может использоваться для обозначения слабо артикулированного абруптивного согласного, например, [ᵗ̕] или [ᵏ̕] , где весь согласный пишется как надстрочный, или вместе с U+2BC, когда отдельные апострофы имеют область действия над базовой и модифицирующей буквами, как в ⟨ pʼᵏˣ̕ ⟩. [14]

Пробелы в виде диакритических знаков, как в ⟨ ⟩, не могут быть вторично надстрочными в обычном тексте: ⟨ ᵗʲ ⟩. (В этом случае старая буква МФА для [tʲ] , ⟨ ƫ ⟩, имеет надстрочный вариант в Unicode, U+1DB5 ⟨ ⟩, но это не всегда так.)

Среди старых букв, ⟨ ⟩ (U+A727) была графическим вариантом ⟨ ɮ ⟩. Ее надстрочный индекс поддерживается в ⟨ ⟩ (U+AB5C). Наиболее распространенные буквы с небным крючком также поддерживаются; они отображаются в таблице выше. В МФА когда-то был своеобразный завиток на некоторых палатализованных буквах: это фрикативные буквы ⟨ ʆ ʓ ⟩. Их надстрочные формы были предложены для будущей версии стандарта Unicode. [11] [9] Устаревшие буквы ⟨ ƞ ⟩ и ⟨ ɼ ⟩ также были предложены для будущей версии стандарта Unicode. [11] [9]

Среди букв пара-IPA синологический верхний индекс ⟨ ȡ ȴ ȵ ȶ ⟩ был предложен для будущей версии стандарта Unicode. [10] [9] Верхние индексы бантуистских губно-зубных взрывных согласных ⟨ ȹ ⟩ и ⟨ ȸ ⟩ были предложены для будущей версии стандарта Unicode. [10] [9] Центральные полугласные ⟨ ɉ ⟩, ɥ̶ и также были предложены для будущей версии стандарта Unicode. [10] [9]

Для будущей версии стандарта Unicode были предложены старые щелкающие буквы. [15] [9]

Гласные буквы

Символы Unicode для надстрочных (модификаторных) гласных букв IPA, а также пара расширенных букв ⟨ ᵻ ᵿ ⟩, которые можно найти в английских словарях, приведены ниже. Недавно выведенные из употребления альтернативные буквы, такие как ⟨ ɩ ɷ ⟩, также поддерживаются; они заключены в скобки и размещены под стандартными буквами IPA:

Составные ротические гласные буквы Unicode ⟨ ɚ ɝ ⟩ напрямую не поддерживаются. Вместо них следует использовать ротический диакритический знак U+02DE ◌˞ : ⟨ ᵊ˞ ᶟ˞ ⟩. [16]

ɜ ⟩ и ⟨ перевернуты ɛ . Более старая IPA, перевернутая ɛ , ⟨ ⟩, также поддерживается, на U+1D4C ⟨ ⟩. Однако, ненадолго воскрешенная гласная буква ⟨ ʚ ⟩ (U+029A) не поддерживается, поддерживается только ее перевернутая замена ⟨ ɞ ⟩.

Среди старых букв ⟨ ⟩ (U+1D1C), графический вариант ⟨ ʊ ⟩, поддерживается в ⟨ ⟩ (U+1DB8).

Среди букв пара-IPA для будущей версии стандарта Unicode были предложены синологические надстрочные символы ⟨ ɿ ʅ ʮ ʯ ⟩. [10] [9]

Длина отметок

Также поддерживаются две метки длины:

Они используются для добавления длины другому надстрочному индексу, например, для долгого придыхания.

Универсальные символы

Поддерживаются в основном символы подстановки надстрочного индекса (полные заглавные буквы): например, ᴺC (преназализованный согласный), ꟲN (престопный носовой), Pꟳ (фрикативное освобождение), NᴾF (вставной взрывной), CVNᵀ (тононосный слог), Cᴸ (плавное или боковое освобождение), Cᴿ (ротическое или резонансное освобождение), Vᴳ (нескользящее/дифтонг), Cⱽ (мимолетная гласная). Символ подстановки надстрочного индекса S для свистящего освобождения был предложен для будущей версии стандарта Unicode; [8] [9] символ подстановки надстрочного индекса для мимолетного/вставного щелчка не был предложен. В основном поддерживаются другие основные латинские символы подстановки надстрочного индекса для тона и слабых неопределенных звуков, описанные в статье о Международном фонетическом алфавите . (См. таблицу в предыдущем разделе.)

Объединение знаков и индексов

Кроме того, очень немногие буквы МФА, выходящие за рамки основного латинского алфавита, имеют комбинационные формы или поддерживаются в качестве нижних индексов:

Составные персонажи

В первую очередь для совместимости с более ранними наборами символов Unicode содержит ряд символов, которые образуют надстрочные и подстрочные индексы с другими символами. [1] В большинстве шрифтов они отображаются гораздо лучше, чем попытки построить эти символы из вышеуказанных символов или с помощью разметки.

Примечания

  1. ^ Общий обзор и техническую информацию о замене глифов (но не конкретно для дробей) см. в GSUB — Таблица замены глифов в спецификации OpenType на сайте Microsoft Typography.
  2. ^ Такие как Chrome , Firefox и Falkon
  3. ^ Например, LibreOffice Writer
  4. ^ Такие как Adobe InDesign и Scribus
  5. ^ Надстрочный индекс ⟨ ç ⟩ состоит из надстрочного индекса c и комбинирующего седиля , который должен правильно отображаться в хорошем шрифте. Надстрочный индекс c был специально запрошен для этой цели в предложении Unicode L2/03-180.
  6. ^ U+02E4 ˤ БУКВА-МОДИФИКАТОР МАЛЕНЬКАЯ ПЕРЕВЕРНУТАЯ ГЛОТТАЛЬНАЯ СТОПКА — это надстрочный вариант U+0295 ʕ ЛАТИНСКАЯ БУКВА ГЛОТКОВАЯ ЗВОНОЧНАЯ ФРИКАТИВНАЯ и определена для использования в МФА. Похожий символ U+02C1 ˁ БУКВА-МОДИФИКАТОР ПЕРЕВЕРНУТАЯ ГЛОТТАЛЬНАЯ СТОПКА — это перевернутая U+02C0 ˀ БУКВА-МОДИФИКАТОР ГЛОТТАЛЬНАЯ СТОПКА , возможно, кастрированный перевернутый вопросительный знак. Шрифты непоследовательны в том, выглядят ли они по-разному и в чем разница.
  7. ^ В шрифтах Microsoft надстрочный знак ⟨ ɫ ⟩ был ошибочно задуман как надстрочный знак ⟨ ⟩.
  8. ^ U+A71D ⟨ ⟩ и A71E ⟨ ⟩ были приняты в качестве африканских эквивалентов символов IPA ⟨ downstep и ⟨ upstep . Соответствие U+A71D ⟨ ⟩ с клик-буквой IPA ⟨ ǃ ⟩ является, таким образом, случайным. По совпадению, U+A71E ⟨ ꜞ ⟩ служит в качестве надстрочного варианта ударного согласного extIPA ⟨ ¡ ⟩; другие ударные буквы, ⟨ ʬ ⟩ и ⟨ ʭ ⟩, не поддерживают надстрочный формат в Unicode.
  9. ^ На самом деле это вьетнамский диакритический знак dấu hỏi , а не конкретно IPA, но графически оба являются кастрированными вопросительными знаками.

Ссылки

  1. ^ abc "UCD: UnicodeData.txt". Стандарт Unicode . Получено 2016-05-14 .
  2. ^ ab Martin Dürst, Asmus Freytag (16 мая 2007 г.). "Unicode в XML и других языках разметки". W3C . Получено 13 сентября 2010 г. .
  3. ^ "fraction | Dart Package". Dart packages . 27 декабря 2021 г. Получено 21 сентября 2022 г.
  4. ^ "MathML | Общие элементы макета | Дроби". data2type GmbH (на немецком языке). 30 марта 2021 г. Получено 13 января 2022 г.[ мертвая ссылка ]
  5. ^ Мартин Дюрст, Асмус Фрейтаг (16 мая 2007 г.). «Фракционный слэш». W3C . Проверено 13 сентября 2010 г.
  6. ^ "UCD: Scripts.txt". Стандарт Unicode . Получено 21.09.2022 .
  7. ^ Эверсон, Майкл; Уэст, Эндрю (05.10.2020). «L2/20-268: Пересмотренное предложение о добавлении десяти символов для среднеанглийского языка в UCS» (PDF) .
  8. ^ Кирк Миллер (2024-01-30). "L2/24-081: Запрос Unicode для модификатора заглавной буквы S" (PDF) .
  9. ^ abcdefghijkl "Предлагаемые новые символы: таблица конвейеров". Консорциум Unicode . 2024-09-10 . Получено 2024-09-21 .
  10. ^ abcdef Кирк Миллер (2024-06-14). "L2/24-147: Модификатор синологических расширений к МФА" (PDF) .
  11. ^ abcd Кирк Миллер (2024-06-06). "L2/24-171: Различные исторические и пара-IPA модификаторы букв" (PDF) .
  12. ^ ͺ ⟩ устанавливается ниже обычного нижнего индекса. Он эквивалентен нижнему индексу ⟨ ◌ͅ ⟩ на пробеле.
  13. ^ ◌̫ ⟩ традиционно набирается как омега.
  14. ^ Кирк Миллер и Майкл Эшби, L2/20-253R Запрос Unicode для букв-модификаторов МФА (b), нелегочных.
  15. ^ Кирк Миллер (2024-04-26). "L2/24-052R: Запрос Unicode для модификатора pre-Kiel click letters" (PDF) .
  16. ^ Кирк Миллер и Майкл Эшби, L2/20-252R Запрос Unicode для букв-модификаторов МФА (a), легочный
  17. ^ Сильва, Эдуардо Марин (1 марта 2017 г.). «L2/17-066R: Предложение по кодированию знака Marca Registrada» (PDF) .