Цифра (часто называемая числом в Unicode ) — это символ, обозначающий число. Десятичные цифры от 0 до 9 широко используются в различных системах письма по всему миру, однако графемы, представляющие десятичные цифры, сильно различаются. Поэтому Unicode включает 22 различных набора графем для десятичных цифр, а также различные десятичные точки, разделители тысяч, отрицательные знаки и т. д. Unicode также включает несколько недесятичных цифр, таких как эгейские цифры , римские цифры , счетные цифры , майянские цифры , клинописные цифры и древнегреческие цифры . Существует также большое количество типографских вариаций западных арабских цифр , предусмотренных для специализированного математического использования и для совместимости с более ранними наборами символов, такими как ² или ②, и составными символами, такими как ½.
Сгруппированные по их числовому свойству, используемому в тексте, Unicode имеет четыре значения для числового типа. Во-первых, это тип «не число». Затем идут десятичные числа, обычно используемые в западном стиле десятичных чисел (обычные 0–9), есть числа, которые не являются частью десятичной системы, такие как римские числа, и десятичные числа в типографском контексте, такие как обведенные числа. Не отмечена нумерация, например «ABC» для нумерации глав.
Шестнадцатеричные цифры в Unicode не являются отдельными символами; используются существующие буквы и цифры. Эти символы имеют отмеченные свойства Character Hex_digit=Yes
и ASCII_Hex_digit=Yes
при необходимости.
Индо -арабская система счисления включает десять цифр, представляющих 0–9. Unicode включает западные арабские цифры в базовом латинском (или производном от ASCII) блоке. Цифры повторяются в нескольких других письменностях: восточно-арабской , балийской, бенгальской, деванагари, эфиопской, гуджарати, гурмукхи, телугу, кхмерской, лаосской, лимбу, малаяламской, монгольской, мьянманской, новой тай-луэ, нко, ория, телугу, тайской, тибетской, османийской. Unicode включает свойство числового значения для каждой цифры, чтобы помочь в сортировке и других операциях по обработке текста. Однако между различными связанными цифрами нет сопоставления.
Хотя в арабском языке письмо ведется справа налево, а в английском — слева направо, в обоих языках числа пишутся так, чтобы самая значимая цифра находилась слева, а самая значимая — справа.
Символ дробной косой черты (U+2044) позволяет авторам, использующим Unicode, составлять любую произвольную дробь вместе с десятичными цифрами. Это было сделано для того, чтобы указать отрисовке шрифта сделать окружающие цифры меньше и поднять их слева и опустить справа, но это редко реализуется. (Возможным решением является использование символов надстрочного/подстрочного индекса, описанных ниже, но доступны только арабские цифры.) Unicode также включает несколько вульгарных дробей в качестве символов совместимости, но не рекомендует их использовать.
Несколько символов в Unicode могут служить десятичным разделителем в зависимости от локали. Десятичные дроби представлены в тексте как последовательность десятичных цифр с десятичным разделителем, отделяющим целую часть числа от дробной части. Например, десятичная дробь для ¼ выражается как ноль-целая-два-пять ("0.25"). Unicode не имеет специального общего десятичного разделителя, но унифицирует функцию десятичного разделителя с другими знаками пунктуации. Так, "." используемый в "0.25" - это тот же символ точки (U+002E), который используется для окончания предложения. Однако культуры различаются по глифу или графеме, используемой для десятичного разделителя. Так, в некоторых локалях вместо этого может использоваться запятая (U+002C): "0,25". В других локалях для "0 25" используется пробел (или неразрывный пробел). В арабской системе письма есть специальный символ для десятичного разделителя, который очень похож на запятую «٫» (U+066B), которая в сочетании с арабскими цифрами для выражения четверти выглядит как: «٠٫٢٥».
В настоящее время три символа Unicode семантически представляют математические константы: U+210E ℎ КОНСТАНТА ПЛАНКА , U+210F ℏ КОНСТАНТА ПЛАНКА НАД ДВУМЯ ПИ и U+2107 ℇ КОНСТАНТА ЭЙЛЕРА (значение неизвестно [1] ). Другие математические константы могут быть представлены с помощью символов, которые имеют несколько семантических применений. Например, хотя Unicode включает символ для натурального показателя ℯ (U+212F), его каноническое название UCS происходит от его глифа: U+212F ℯ SCRIPT SMALL E ; а математическая константа π , 3.141592.., представлена как U+03C0 π ГРЕЧЕСКАЯ СТРОЧНАЯ БУКВА ПИ .
Западные арабские цифры также присутствуют среди совместимых символов в виде вариантов расширенного текста, включая полужирный, двойной штрих, моноширинный, шрифт без засечек и полужирный шрифт без засечек, а также полноширинные варианты для поддержки устаревшего вертикального текста.
В блоки «Вложенные буквы и месяцы CJK»; «Вложенные буквенно-цифровые символы, надстрочные и подстрочные символы»; «Формы чисел» и «Дингбаты» также включены форматированные текстовые варианты в скобках, кружках и другие варианты.
Система huāmǎ ( упрощенный китайский :花码; традиционный китайский :花碼) / Sūzhōu mǎzi ( упрощенный китайский :苏州码子; традиционный китайский :蘇州碼字) является разновидностью системы стержневых чисел. Стержневые числа тесно связаны со счетными палочками и счетами , поэтому числовые символы для 1, 2, 3, 6, 7 и 8 в системе huāmǎ представлены таким же образом, как и на счетах. В настоящее время система huāmǎ используется только для отображения цен на китайских рынках или в традиционных рукописных счетах-фактурах.
Цифры сучжоуских цифр находятся в блоке символов и пунктуации CJK в U+3021—U+3029, U+3007, U+5341, U+5344 и U+5345. В Unicode 3.0 эти символы неправильно называются цифрами в стиле Ханчжоу . В Unicode 4.0 была добавлена ошибка, которая гласила: [2]
Цифры Сучжоу (китайские su1zhou1ma3zi ) — это специальные числовые формы, используемые торговцами для отображения цен на товары. Использование «HANGZHOU» в названиях является неправильным.
Все ссылки на «Ханчжоу» в стандарте Unicode были исправлены на «Сучжоу», за исключением самих имен символов, которые не могут быть изменены после назначения, согласно Политике стабильности Unicode. [3] (Эта политика позволяет программному обеспечению использовать имена в качестве уникальных идентификаторов.)
Unicode обеспечивает поддержку нескольких вариантов греческих цифр , отнесенных к Дополнительной многоязыковой плоскости от U+10140 до U+1018F. [4]
Аттические цифры использовались древними греками , возможно, с 7-го века до н . э . Они также были известны как иродианские цифры, потому что они были впервые описаны в рукописи 2-го века Геродианом . Они также известны как акрофонические цифры , потому что все используемые символы происходят от первых букв слов, которые символы представляют: «один», «пять», «десять», «сто», «тысяча» и «десять тысяч». Смотрите греческие цифры и акрофония .
Римские цифры возникли в Древнем Риме , адаптированные из этрусских цифр . Система, используемая в классической античности, была слегка изменена в Средние века, чтобы создать систему, которую мы используем сегодня. Она основана на определенных буквах, которым даны значения как цифрам.
Римские цифры сегодня широко используются в нумерованных списках (в формате структуры), циферблатах часов, страницах, предшествующих основному тексту книги, аккордовых трезвучиях в анализе музыки ( анализ римских цифр ), нумерации сиквелов фильмов и видеоигр, датах публикации книг, сменяющих друг друга политических лидеров или детей с одинаковыми именами, а также нумерации некоторых спортивных мероприятий, таких как Олимпийские игры или Суперкубок .
Unicode имеет ряд символов, специально обозначенных как римские цифры, как часть диапазона числовых форм [5] от U+2160 до U+2188. Этот диапазон включает как заглавные, так и строчные цифры, а также предварительно объединенные символы для чисел до 12 (Ⅻ или XII). Одной из причин существования предварительно объединенных чисел является облегчение установки многобуквенных чисел (например, VIII) на одной горизонтальной строке в азиатском вертикальном тексте. Однако стандарт Unicode включает специальные кодовые точки римских цифр только для совместимости, заявляя, что «[д]ля большинства целей предпочтительнее составлять римские цифры из последовательностей соответствующих латинских букв». [6]
Кроме того, существуют символы для архаичных [5] форм 1000, 5000, 10 000, большая перевернутая буква C (Ɔ) , поздняя 6 (ↅ, похожа на греческую стигму : Ϛ), ранняя 50 (ↆ, похожа на стрелку вниз ↓⫝⊥ [7] ), 50 000 и 100 000. Маленькая перевернутая буква c, ↄ, не предназначена для использования в римских цифрах, а как строчная буква Клавдия Ↄ.
При использовании шрифтов blackletter или script римские цифры набираются шрифтом Roman . Такие шрифты могут содержать римские цифры, соответствующие стилю шрифта в диапазоне Unicode U+2160–217F; если их нет, для римских цифр используется соответствующая гарнитура Antiqua .
В блоке «Древние символы » [9] в Unicode имеются символы для римских дробей : sextans, uncia, semuncia, sextula, dimidia sextula, siliqua и as.
Счетные палочки включены в свой собственный блок в Supplementary Multilingual Plane (SMP) начиная с Unicode 5.0. Существует девять «горизонтальных» цифр (от U+1D360 до U+1D368) и девять «вертикальных» цифр (от U+1D369 до U+1D371), горизонтальные цифры используются для нечетных степеней десяти, а вертикальные — для четных степеней десяти. Ноль должен быть представлен как U+3007 (〇, идеографическое число ноль), а знак «минус» должен быть представлен как U+20E5 (объединяя наложение обратной косой черты). [10] Этот блок также содержит другие символы, похожие на счетные палочки, такие как хорошо известный знак подсчета для 5 |||| . Поскольку они были недавно добавлены в набор символов и отсутствуют в BMP, поддержка шрифтов все еще может быть ограничена.