Цифры в Unicode

Цифра (часто называемая числом в Unicode ) — это символ, обозначающий число. Десятичные цифры от 0 до 9 широко используются в различных системах письма по всему миру, однако графемы, представляющие десятичные цифры, сильно различаются. Поэтому Unicode включает 22 различных набора графем для десятичных цифр, а также различные десятичные точки, разделители тысяч, отрицательные знаки и т. д. Unicode также включает несколько недесятичных цифр, таких как эгейские цифры , римские цифры , счетные цифры , майянские цифры , клинописные цифры и древнегреческие цифры . Существует также большое количество типографских вариаций западных арабских цифр , предусмотренных для специализированного математического использования и для совместимости с более ранними наборами символов, такими как ² или ②, и составными символами, такими как ½.

Числа по числовому свойству

Сгруппированные по их числовому свойству, используемому в тексте, Unicode имеет четыре значения для числового типа. Во-первых, это тип «не число». Затем идут десятичные числа, обычно используемые в западном стиле десятичных чисел (обычные 0–9), есть числа, которые не являются частью десятичной системы, такие как римские числа, и десятичные числа в типографском контексте, такие как обведенные числа. Не отмечена нумерация, например «ABC» для нумерации глав.

Шестнадцатеричные цифры

Шестнадцатеричные цифры в Unicode не являются отдельными символами; используются существующие буквы и цифры. Эти символы имеют отмеченные свойства Character Hex_digit=Yes и ASCII_Hex_digit=Yesпри необходимости.

Цифры по шрифту

Индо-арабские цифры

Индо -арабская система счисления включает десять цифр, представляющих 0–9. Unicode включает западные арабские цифры в базовом латинском (или производном от ASCII) блоке. Цифры повторяются в нескольких других письменностях: восточно-арабской , балийской, бенгальской, деванагари, эфиопской, гуджарати, гурмукхи, телугу, кхмерской, лаосской, лимбу, малаяламской, монгольской, мьянманской, новой тай-луэ, нко, ория, телугу, тайской, тибетской, османийской. Unicode включает свойство числового значения для каждой цифры, чтобы помочь в сортировке и других операциях по обработке текста. Однако между различными связанными цифрами нет сопоставления.

Хотя в арабском языке письмо ведется справа налево, а в английском — слева направо, в обоих языках числа пишутся так, чтобы самая значимая цифра находилась слева, а самая значимая — справа.

Дроби

Символ дробной косой черты (U+2044) позволяет авторам, использующим Unicode, составлять любую произвольную дробь вместе с десятичными цифрами. Это было сделано для того, чтобы указать отрисовке шрифта сделать окружающие цифры меньше и поднять их слева и опустить справа, но это редко реализуется. (Возможным решением является использование символов надстрочного/подстрочного индекса, описанных ниже, но доступны только арабские цифры.) Unicode также включает несколько вульгарных дробей в качестве символов совместимости, но не рекомендует их использовать.

Десятичные дроби

Несколько символов в Unicode могут служить десятичным разделителем в зависимости от локали. Десятичные дроби представлены в тексте как последовательность десятичных цифр с десятичным разделителем, отделяющим целую часть числа от дробной части. Например, десятичная дробь для ¼ выражается как ноль-целая-два-пять ("0.25"). Unicode не имеет специального общего десятичного разделителя, но унифицирует функцию десятичного разделителя с другими знаками пунктуации. Так, "." используемый в "0.25" - это тот же символ точки (U+002E), который используется для окончания предложения. Однако культуры различаются по глифу или графеме, используемой для десятичного разделителя. Так, в некоторых локалях вместо этого может использоваться запятая (U+002C): "0,25". В других локалях для "0 25" используется пробел (или неразрывный пробел). В арабской системе письма есть специальный символ для десятичного разделителя, который очень похож на запятую «٫» (U+066B), которая в сочетании с арабскими цифрами для выражения четверти выглядит как: «٠٫٢٥».

Символы для математических констант

В настоящее время три символа Unicode семантически представляют математические константы: U+210E ℎ КОНСТАНТА ПЛАНКА , U+210F ℏ КОНСТАНТА ПЛАНКА НАД ДВУМЯ ПИ и U+2107 ℇ КОНСТАНТА ЭЙЛЕРА (значение неизвестно ^[1] ). Другие математические константы могут быть представлены с помощью символов, которые имеют несколько семантических применений. Например, хотя Unicode включает символ для натурального показателя ℯ (U+212F), его каноническое название UCS происходит от его глифа: U+212F ℯ SCRIPT SMALL E ; а математическая константа π , 3.141592.., представлена как U+03C0 π ГРЕЧЕСКАЯ СТРОЧНАЯ БУКВА ПИ .

Форматированный текст и другие совместимые цифры

Западные арабские цифры также присутствуют среди совместимых символов в виде вариантов расширенного текста, включая полужирный, двойной штрих, моноширинный, шрифт без засечек и полужирный шрифт без засечек, а также полноширинные варианты для поддержки устаревшего вертикального текста.

В блоки «Вложенные буквы и месяцы CJK»; «Вложенные буквенно-цифровые символы, надстрочные и подстрочные символы»; «Формы чисел» и «Дингбаты» также включены форматированные текстовые варианты в скобках, кружках и другие варианты.

Числительные Сучжоу (хуама/Сучжоу мазы)

Система huāmǎ ( упрощенный китайский :花码; традиционный китайский :花碼) / Sūzhōu mǎzi ( упрощенный китайский :苏州码子; традиционный китайский :蘇州碼字) является разновидностью системы стержневых чисел. Стержневые числа тесно связаны со счетными палочками и счетами , поэтому числовые символы для 1, 2, 3, 6, 7 и 8 в системе huāmǎ представлены таким же образом, как и на счетах. В настоящее время система huāmǎ используется только для отображения цен на китайских рынках или в традиционных рукописных счетах-фактурах.

Цифры сучжоуских цифр находятся в блоке символов и пунктуации CJK в U+3021—U+3029, U+3007, U+5341, U+5344 и U+5345. В Unicode 3.0 эти символы неправильно называются цифрами в стиле Ханчжоу . В Unicode 4.0 была добавлена ошибка, которая гласила: ^[2]

Цифры Сучжоу (китайские su1zhou1ma3zi ) — это специальные числовые формы, используемые торговцами для отображения цен на товары. Использование «HANGZHOU» в названиях является неправильным.

Все ссылки на «Ханчжоу» в стандарте Unicode были исправлены на «Сучжоу», за исключением самих имен символов, которые не могут быть изменены после назначения, согласно Политике стабильности Unicode. ^[3] (Эта политика позволяет программному обеспечению использовать имена в качестве уникальных идентификаторов.)

Японские и корейские цифры

Древнегреческие цифры

Unicode обеспечивает поддержку нескольких вариантов греческих цифр , отнесенных к Дополнительной многоязыковой плоскости от U+10140 до U+1018F. ^[4]

Аттические цифры использовались древними греками , возможно, с 7-го века до н . э . Они также были известны как иродианские цифры, потому что они были впервые описаны в рукописи 2-го века Геродианом . Они также известны как акрофонические цифры , потому что все используемые символы происходят от первых букв слов, которые символы представляют: «один», «пять», «десять», «сто», «тысяча» и «десять тысяч». Смотрите греческие цифры и акрофония .

римские цифры

Римские цифры возникли в Древнем Риме , адаптированные из этрусских цифр . Система, используемая в классической античности, была слегка изменена в Средние века, чтобы создать систему, которую мы используем сегодня. Она основана на определенных буквах, которым даны значения как цифрам.

Римские цифры сегодня широко используются в нумерованных списках (в формате структуры), циферблатах часов, страницах, предшествующих основному тексту книги, аккордовых трезвучиях в анализе музыки ( анализ римских цифр ), нумерации сиквелов фильмов и видеоигр, датах публикации книг, сменяющих друг друга политических лидеров или детей с одинаковыми именами, а также нумерации некоторых спортивных мероприятий, таких как Олимпийские игры или Суперкубок .

Unicode имеет ряд символов, специально обозначенных как римские цифры, как часть диапазона числовых форм^[5] от U+2160 до U+2188. Этот диапазон включает как заглавные, так и строчные цифры, а также предварительно объединенные символы для чисел до 12 (Ⅻ или XII). Одной из причин существования предварительно объединенных чисел является облегчение установки многобуквенных чисел (например, VIII) на одной горизонтальной строке в азиатском вертикальном тексте. Однако стандарт Unicode включает специальные кодовые точки римских цифр только для совместимости, заявляя, что «[д]ля большинства целей предпочтительнее составлять римские цифры из последовательностей соответствующих латинских букв». ^[6]

Кроме того, существуют символы для архаичных ^[5] форм 1000, 5000, 10 000, большая перевернутая буква C (Ɔ) , поздняя 6 (ↅ, похожа на греческую стигму : Ϛ), ранняя 50 (ↆ, похожа на стрелку вниз ↓⫝⊥ ^[7] ), 50 000 и 100 000. Маленькая перевернутая буква c, ↄ, не предназначена для использования в римских цифрах, а как строчная буква Клавдия Ↄ.

При использовании шрифтов blackletter или script римские цифры набираются шрифтом Roman . Такие шрифты могут содержать римские цифры, соответствующие стилю шрифта в диапазоне Unicode U+2160–217F; если их нет, для римских цифр используется соответствующая гарнитура Antiqua .

В блоке «Древние символы^{» [9]} в Unicode имеются символы для римских дробей : sextans, uncia, semuncia, sextula, dimidia sextula, siliqua и as.

Счетные палочки с цифрами

Счетные палочки включены в свой собственный блок в Supplementary Multilingual Plane (SMP) начиная с Unicode 5.0. Существует девять «горизонтальных» цифр (от U+1D360 до U+1D368) и девять «вертикальных» цифр (от U+1D369 до U+1D371), горизонтальные цифры используются для нечетных степеней десяти, а вертикальные — для четных степеней десяти. Ноль должен быть представлен как U+3007 (〇, идеографическое число ноль), а знак «минус» должен быть представлен как U+20E5 (объединяя наложение обратной косой черты). ^[10] Этот блок также содержит другие символы, похожие на счетные палочки, такие как хорошо известный знак подсчета для 5 ~~||||~~ . Поскольку они были недавно добавлены в набор символов и отсутствуют в BMP, поддержка шрифтов все еще может быть ограничена.

Смотрите также

Числовые формы (блок Unicode)

Ссылки

^ Неизвестно, какая именно это константа. В стандарте Xerox XCCS 353/046 просто указано «Эйлера».
^ Фрейтаг, Асмус; Рик МакГоуэн; Кен Уистлер (2006-05-08). "UTN #27: Известные аномалии в именах символов Unicode". Технические заметки . Консорциум Unicode . Получено 2008-06-13 .
^ "Стабильность имени". Политика стабильности кодировки символов Unicode . Консорциум Unicode. 2008-02-28 . Получено 2008-06-13 .
^ Таблицы Unicode: Древнегреческие числа
^ ab Формы чисел Unicode
^ Стандарт Unicode, версия 6.0 – Электронное издание (PDF) , Unicode, Inc., 2011, стр. 486
^ Дэвид Дж. Перри: Предложение добавить дополнительных древнеримских персонажей в UCS
^ Для первых двух строк
^ Древние символы Unicode
↑ Стандарт Unicode, версия 5.0 – Электронное издание (PDF) , Unicode, Inc., 2006, стр. 499–500