Универсальный набор символов

Эта статья содержит специальные символы . Без надлежащей поддержки рендеринга вы можете увидеть вопросительные знаки, квадраты или другие символы .

Консорциум Unicode и ISO/IEC JTC 1/SC 2 / WG 2 совместно работают над списком символов в Универсальном кодированном наборе символов . Универсальный кодированный набор символов, чаще всего называемый Универсальным набором символов ( сокр. UCS, официальное обозначение: ISO / IEC 10646), является международным стандартом для сопоставления символов , дискретных символов, используемых в естественном языке , математике , музыке и других областях, уникальным машиночитаемым значениям данных. Создавая это сопоставление, UCS позволяет поставщикам компьютерного программного обеспечения взаимодействовать и передавать — обмениваться — текстовыми строками , закодированными в UCS, от одного к другому. Поскольку это универсальная карта, ее можно использовать для представления нескольких языков одновременно. Это позволяет избежать путаницы, связанной с использованием нескольких устаревших кодировок символов , что может привести к тому, что одна и та же последовательность кодов будет иметь несколько интерпретаций в зависимости от используемой кодировки символов, что приведет к моджибаке , если выбрана неправильная кодировка.

UCS имеет потенциальную емкость более 1 миллиона символов. Каждый символ UCS абстрактно представлен кодовой точкой , целым числом от 0 до 1 114 111 (1 114 112 = 2 ²⁰ + 2 ¹⁶ или 17 × 2 ¹⁶ = 0x 110 000 кодовых точек ), используемым для представления каждого символа во внутренней логике программного обеспечения для обработки текста . По состоянию на Unicode 16.0, выпущенный в сентябре 2024 года, 299 056 (27%) из этих кодовых точек выделены, 155 063 (14%) были назначены символами, 137 468 (12%) зарезервированы для частного использования, 2 048 используются для включения механизма суррогатов, а 66 обозначены как несимволы, оставляя оставшиеся 815 056 (73%) невыделенными. Количество закодированных символов составляется следующим образом:

149 641 графических символов (некоторые из которых не имеют видимого глифа , но все равно считаются графическими)
237 специальных символов для управления и форматирования .

ISO поддерживает базовое сопоставление символов от имени символа до кодовой точки. Часто термины символ и кодовая точка будут использоваться взаимозаменяемо. Однако, когда проводится различие, кодовая точка относится к целому числу символа: тому, что можно было бы считать его адресом. Между тем, символ в ISO/IEC 10646 включает комбинацию кодовой точки и ее имени, Unicode добавляет множество других полезных свойств к набору символов, таких как блок , категория, сценарий и направленность .

В дополнение к UCS дополнительный стандарт Unicode (не совместный проект с ISO, а скорее публикация Консорциума Unicode) содержит другие подробности реализации, такие как:

сопоставления между UCS и другими наборами символов
различные сопоставления символов и строк символов для разных языков
алгоритм для размещения двунаправленного текста (« алгоритм BiDi »), при котором текст на одной строке может смещаться слева направо («LTR») и справа налево («RTL»)
алгоритм складывания корпусов

Конечные пользователи компьютерного программного обеспечения вводят эти символы в программы с помощью различных методов ввода , например, физических клавиатур или виртуальных палитр символов .

UCS можно разделить различными способами, например, по плоскости , блоку, категории персонажа или свойству персонажа . ^[1]

Обзор справочника персонажей

Ссылка на числовой символ HTML или XML ссылается на символ по его кодовой точке универсального набора символов /Unicode и использует формат

&#нннн;

или

&#xхххх;

где nnnn — это кодовая точка в десятичной форме, а hhhh — это кодовая точка в шестнадцатеричной форме. В XML-документах x должен быть строчным. nnnn или hhhh могут быть любым количеством цифр и могут включать начальные нули. hhhh может смешивать заглавные и строчные буквы, хотя заглавные буквы являются обычным стилем.

Напротив, ссылка на сущность символа ссылается на символ по имени сущности , которая имеет желаемый символ в качестве своего заменяющего текста . Сущность должна быть либо предопределена (встроена в язык разметки), либо явно объявлена в определении типа документа (DTD). Формат такой же, как и для любой ссылки на сущность:

&имя;

где name — это имя сущности с учетом регистра. Точка с запятой обязательна.

Самолеты

Unicode и ISO делят набор кодовых точек на 17 плоскостей, каждая из которых может содержать 65536 различных символов или всего 1 114 112. По состоянию на 2024 год (Unicode 16.0) ISO и Консорциум Unicode выделили символы и блоки только в семи из 17 плоскостей. Остальные остаются пустыми и зарезервированы для будущего использования.

Большинство символов в настоящее время назначены на первую плоскость: Базовую многоязыковую плоскость . Это должно облегчить переход для устаревшего программного обеспечения, поскольку Базовая многоязыковая плоскость адресуется всего двумя октетами . Символы за пределами первой плоскости обычно имеют очень специализированное или редкое использование.

Каждая плоскость соответствует значению одной или двух шестнадцатеричных цифр (0—9, A—F), предшествующих четырем последним: следовательно, U+24321 находится в плоскости 2, U+4321 находится в плоскости 0 (неявно читается как U+04321), а U+10A200 будет в плоскости 16 (шестнадцатеричное 10 = десятичное 16). В пределах одной плоскости диапазон кодовых точек — шестнадцатеричный 0000—FFFF, что дает максимум 65536 кодовых точек. Плоскости ограничивают кодовые точки подмножеством этого диапазона.

Блоки

Unicode добавляет свойство блока в UCS, которое далее делит каждую плоскость на отдельные блоки. Каждый блок представляет собой группу символов по их использованию, например, «математические операторы» или «символы еврейского письма». При назначении символов ранее не назначенным кодовым точкам Консорциум обычно выделяет целые блоки похожих символов: например, все символы, принадлежащие к одному и тому же скрипту, или все символы с похожим назначением назначаются одному блоку. Блоки также могут поддерживать не назначенные или зарезервированные кодовые точки, когда Консорциум ожидает, что блок потребует дополнительных назначений.

Первые 256 кодовых точек в UCS соответствуют таковым в ISO 8859-1 , самой популярной 8-битной кодировке символов в западном мире . В результате первые 128 символов также идентичны ASCII . Хотя Unicode называет их блоком латинского алфавита, эти два блока содержат много символов, которые обычно используются за пределами латинского алфавита. В общем, не все символы в данном блоке должны быть одного алфавита, и данный алфавит может встречаться в нескольких разных блоках.

Категории

Unicode назначает каждому символу UCS общую категорию и подкатегорию. Общие категории: буква, знак, число, пунктуация, символ или элемент управления (другими словами, форматирующий или неграфический символ).

Типы включают в себя:

Современные, исторические и древние письменности . По состоянию на 2024 год (Unicode 16.0) UCS идентифицирует 168 письменностей, которые используются или использовались во всем мире. Многие другие находятся на различных стадиях утверждения для будущего включения в UCS. ^[2]
Международный фонетический алфавит . UCS посвящает несколько блоков (более 300 символов) символам для Международного фонетического алфавита .
Объединение диакритических знаков . Важным шагом вперед, задуманным Unicode при проектировании UCS и связанных с ним алгоритмов обработки текста, стало введение объединения диакритических знаков. Предоставляя акценты, которые могут сочетаться с любым буквенным символом, Unicode и UCS значительно сокращают количество необходимых символов. Хотя UCS также включает предварительно составленные символы, они были включены в первую очередь для облегчения поддержки в UCS систем обработки текста, не поддерживающих Unicode.
Пунктуация . Наряду с унификацией диакритических знаков, UCS также стремился унифицировать пунктуацию во всех письменностях. Многие письменности также содержат пунктуацию, однако, когда эта пунктуация не имеет схожей семантики в других письменностях.
Символы . Многие математические, технические, геометрические и другие символы включены в UCS. Это обеспечивает отдельные символы с их собственной кодовой точкой или символом, а не полагаться на переключение шрифтов для предоставления символических глифов.
- Валюта .
- Буквоподобные . Эти символы выглядят как комбинации многих распространенных букв латинского алфавита, таких как ℅ . Unicode обозначает многие буквоподобные символы как символы совместимости, поскольку они могут быть в обычном тексте путем замены глифов на составную последовательность символов: например, замена глифа ℅ на составную последовательность символов c/o .
- Числовые формы . Числовые формы в основном состоят из предварительно составленных дробей и римских цифр. Как и в других областях составления последовательностей символов, подход Unicode предпочитает гибкость составления дробей путем объединения символов вместе. В этом случае для создания дробей объединяются числа с символом дробной косой черты (U+2044). В качестве примера гибкости, которую обеспечивает этот подход, в UCS включено девятнадцать предварительно составленных символов дробей. Однако существует бесконечное множество возможных дробей. При использовании составных символов бесконечность дробей обрабатывается 11 символами (0-9 и дробная косая черта). Ни один набор символов не может включать кодовые точки для каждой предварительно составленной дроби. В идеале текстовая система должна представлять одни и те же глифы для дроби, будь то одна из предварительно составленных дробей (например, ⅓ ) или составная последовательность символов (например, 1⁄3 ). Однако веб-браузеры обычно не настолько сложны в работе с Unicode и обработкой текста. Это гарантирует, что предварительно составленные дроби и объединенные дроби последовательности будут выглядеть совместимыми рядом друг с другом.
- Стрелки .
- Математический .
- Геометрические фигуры .
- Устаревшие вычисления .
- Управляющие картинки Графические представления многих управляющих символов.
- Рисунок коробки .
- Элементы блока .
- Образцы шрифта Брайля .
- Оптическое распознавание символов .
- Технический .
- Дингбаты .
- Различные символы .
- Смайлики .
- Символы и пиктограммы .
- Алхимические символы .
- Игровые фигуры (шахматы, шашки, го, игральные кости, домино, маджонг, игральные карты и многие другие).
- Шахматные символы
- Тай Сюань Цзин .
- Символы гексаграммы Ицзин .
CJK . Посвящен идеограммам и другим символам для поддержки языков в Китае, Японии, Корее (CJK), Тайване, Вьетнаме и Таиланде.
- Радикалы и штрихи .
- Идеограммы . На сегодняшний день большая часть UCS посвящена идеограммам, используемым в языках Восточной Азии. Хотя глифическое представление этих идеограмм разошлось в языках, которые их используют, UCS объединяет эти символы Хан в то, что Unicode называет Unihan (Unified Han). С Unihan программное обеспечение для верстки текста должно работать вместе с доступными шрифтами и этими символами Unicode, чтобы создать соответствующий глиф для соответствующего языка. Несмотря на унификацию этих символов, UCS по-прежнему включает более 97 000 идеограмм Unihan.
Музыкальная нотация .
Дуплоянские стенографии .
Надпись на знаке Саттон .
Символы совместимости . Несколько блоков в UCS почти полностью посвящены символам совместимости. Символы совместимости — это те, которые включены для поддержки устаревших систем обработки текста, которые не делают различий между символом и глифом, как это делает Unicode. Например, многие арабские буквы представлены другим глифом, когда буква появляется в конце слова, чем когда буква появляется в начале слова. Подход Unicode предпочитает, чтобы эти буквы сопоставлялись с одним и тем же символом для простоты внутренней машинной обработки текста и хранения. Чтобы дополнить этот подход, текстовое программное обеспечение должно выбирать различные варианты глифов для отображения символа на основе его контекста. Для таких целей совместимости включено более 4000 символов.
Управляющие символы .
Суррогаты . UCS включает 2048 кодовых точек в базовой многоязыковой плоскости (BMP) для пар суррогатных кодовых точек. Вместе эти суррогаты позволяют адресовать любую кодовую точку в шестнадцати других плоскостях с помощью двух суррогатных кодовых точек. Это обеспечивает простой встроенный метод кодирования 20,1-битной UCS в 16-битной кодировке, такой как UTF-16. Таким образом, UTF-16 может представлять любой символ в BMP одним 16-битным словом. Затем символы за пределами BMP кодируются с помощью двух 16-битных слов (всего 4 октета или байта) с использованием суррогатных пар.
Частное использование . Консорциум предоставляет несколько блоков и плоскостей для частного использования, которые могут быть назначены персонажам в различных сообществах, а также поставщикам операционных систем и шрифтов.
Несимволы . Консорциум гарантирует, что определенным кодовым точкам никогда не будет назначен символ, и называет эти несимволические кодовые точки. К ним относятся диапазон U+FDD0..U+FDEF и последние две кодовые точки каждой плоскости (заканчивающиеся шестнадцатеричными цифрами FFFE и FFFF). ^[3]

Специальные символы

Unicode кодирует более ста тысяч символов. Большинство из них представляют графемы для обработки в виде линейного текста. Однако некоторые из них либо не представляют графемы, либо, как графемы, требуют исключительной обработки. ^[4]^[5] В отличие от управляющих символов ASCII и других символов, включенных для устаревших возможностей кругового обхода, эти другие специальные символы наделяют простой текст важной семантикой.

Некоторые специальные символы могут изменять макет текста, такие как нулевой ширины joiner и нулевой ширины non-joiner, в то время как другие вообще не влияют на макет текста, но вместо этого влияют на то, как текстовые строки сортируются, сопоставляются или иным образом обрабатываются. Другие специальные символы, такие как математические невидимые символы, обычно не влияют на рендеринг текста, хотя сложное программное обеспечение для верстки текста может выбрать тонкую настройку интервала вокруг них.

Unicode не определяет разделение труда между программным обеспечением для шрифтов и текстовой верстки (или «движком») при рендеринге текста Unicode. Поскольку более сложные форматы шрифтов, такие как OpenType или Apple Advanced Typography , предусматривают контекстную замену и позиционирование глифов, простой движок текстовой верстки может полностью полагаться на шрифт для всех решений по выбору и размещению глифов. В той же ситуации более сложный движок может объединять информацию из шрифта со своими собственными правилами для достижения собственного представления о наилучшем рендеринге. Чтобы реализовать все рекомендации спецификации Unicode, текстовый движок должен быть готов работать со шрифтами любого уровня сложности, поскольку контекстные правила замены и позиционирования отсутствуют в некоторых форматах шрифтов и являются необязательными в остальных. Дробная косая черта является примером: сложные шрифты могут или не могут предоставлять правила позиционирования при наличии символа дробной косой черты для создания дроби, в то время как шрифты в простых форматах не могут.

Метка порядка байтов

Метка порядка байтов (BOM) U+FEFF , появляющаяся в начале текстового файла или потока, указывает на форму кодировки и порядок байтов.

Если первый байт потока равен 0xFE, а второй — 0xFF, то текст потока вряд ли будет закодирован в UTF-8 , так как эти байты недопустимы в UTF-8. Он также вряд ли будет в UTF-16 в порядке байтов little-endian , так как 0xFE, 0xFF, прочитанные как 16-битное little-endian слово, будут иметь вид U+FFFE, что бессмысленно. Последовательность также не имеет смысла ни в какой компоновке кодировки UTF-32 , так что, вкратце, она служит довольно надежным указанием на то, что текстовый поток закодирован как UTF-16 в порядке байтов big-endian . И наоборот, если первые два байта равны 0xFF, 0xFE, то можно предположить, что текстовый поток закодирован как UTF-16LE, так как, прочитанные как 16-битное little-endian значение, байты выдают ожидаемую метку порядка байтов 0xFEFF. Однако это предположение становится сомнительным, если следующие два байта оба равны 0x00; либо текст начинается с нулевого символа (U+0000), либо правильной кодировкой на самом деле является UTF-32LE, в которой полная 4-байтовая последовательность FF FE 00 00 представляет собой один символ, BOM.

Последовательность UTF-8, соответствующая U+FEFF, — 0xEF, 0xBB, 0xBF. Эта последовательность не имеет значения в других формах кодировки Unicode, поэтому она может служить указанием на то, что этот поток закодирован как UTF-8.

Спецификация Unicode не требует использования меток порядка байтов в текстовых потоках. Далее в ней говорится, что их не следует использовать в ситуациях, когда уже используется какой-либо другой метод сигнализации формы кодирования.

Математические невидимки

В первую очередь для математики, невидимый разделитель (U+2063) обеспечивает разделитель между символами, где пунктуация или пробел могут быть опущены, например, в двумерном индексе, таком как i⁣j. Невидимые времена (U+2062) и применение функции (U+2061) полезны в математическом тексте, где подразумевается умножение членов или применение функции без какого-либо глифа, указывающего на операцию. Unicode 5.1 также вводит математический невидимый символ плюс (U+2064), который может указывать, что целое число, за которым следует дробь, должно обозначать их сумму, но не их произведение.

Дробь с косой чертой

Пример использования дробной косой черты. Этот шрифт ( Apple Chancery ) показывает синтезированную обыкновенную дробь слева и предварительно составленный глиф дроби справа как отображение строки простого текста "1 1⁄4 1¼". В зависимости от текстовой среды, одна строка "1 1⁄4" может дать любой результат, тот, что справа, путем замены последовательности дроби на один предварительно составленный глиф дроби.

Более сложный пример использования дробной косой черты: простой текст "4 221⁄225", отрисованный в Apple Chancery . Этот шрифт предоставляет программному обеспечению для верстки текста инструкции по синтезу дроби в соответствии с правилом Unicode , описанным в этом разделе.

Символ дробной косой черты (U+2044) имеет особое поведение в стандарте Unicode: ^[6] (раздел 6.2, Другая пунктуация)

Стандартная форма дроби, построенной с использованием дробной косой черты, определяется следующим образом: любая последовательность из одной или нескольких десятичных цифр (общая категория = Nd), за которой следует дробная косая черта, за которой следует любая последовательность из одной или нескольких десятичных цифр. Такая дробь должна отображаться как единица, например ¾ . Если отображающее программное обеспечение не способно сопоставить дробь с единицей, то ее также можно отобразить как простую линейную последовательность в качестве резервного варианта (например, 3/4). Если дробь необходимо отделить от предыдущего числа, то можно использовать пробел, выбрав соответствующую ширину (обычную, тонкую, нулевую ширину и т. д.). Например, 1 + ПРОБЕЛ НУЛЕВОЙ ШИРИНЫ + 3 + ДРОБНАЯ КОСАЯ ЧЕРТА + 4 отображается как 1¾ .

Следуя этой рекомендации Unicode, системы обработки текста выдают сложные символы из простого текста. Здесь наличие символа дробной косой черты указывает движку макета синтезировать дробь из всех последовательных цифр, предшествующих и следующих за косой чертой. На практике результаты различаются из-за сложного взаимодействия между шрифтами и движками макета. Простые движки текстовой верстки, как правило, вообще не синтезируют дроби, а вместо этого рисуют глифы в виде линейной последовательности, как описано в резервной схеме Unicode.

Более сложные движки макета сталкиваются с двумя практическими вариантами: они могут следовать рекомендациям Unicode или полагаться на собственные инструкции шрифта для синтеза дробей. Игнорируя инструкции шрифта, движок макета может гарантировать рекомендуемое Unicode поведение. Следуя инструкциям шрифта, движок макета может добиться лучшей типографики , поскольку размещение и форма цифр будут настроены на этот конкретный шрифт в этом конкретном размере.

Проблема со следованием инструкциям шрифта заключается в том, что более простые форматы шрифтов не имеют возможности указать поведение синтеза дробей. Между тем, более сложные форматы не требуют, чтобы шрифт указывал поведение синтеза дробей, и поэтому многие этого не делают. Большинство шрифтов сложных форматов могут дать команду движку макета заменить последовательность обычного текста, например 1⁄2 , на предварительно составленный глиф ½ . Но поскольку многие из них не будут выдавать инструкции для синтеза дробей, строка обычного текста, например 221⁄225, вполне может отображаться как 22½25 (где ½ будет замененной предварительно составленной дробью, а не синтезированной). Перед лицом таких проблем тем, кто хочет положиться на рекомендуемое поведение Unicode, следует выбирать шрифты, известные синтезом дробей, или программное обеспечение для верстки текста, известное тем, что производит рекомендуемое поведение Unicode независимо от шрифта.

Двунаправленное нейтральное форматирование

Направление письма — это направление, в котором глифы размещаются на странице относительно прямого продвижения символов в строке Unicode. Английский и другие языки латинского алфавита имеют направление письма слева направо. Несколько основных алфавитов, таких как арабский и иврит , имеют направление письма справа налево. Спецификация Unicode назначает каждому символу тип направления , чтобы сообщить текстовым процессорам, как последовательности символов должны быть упорядочены на странице.

В то время как лексические символы (то есть буквы) обычно специфичны для одного письменного алфавита, некоторые символы и знаки препинания используются во многих письменных алфавитах. Unicode мог бы создать дублирующие символы в репертуаре, которые отличаются только типом направления, но вместо этого решил объединить их и назначить им нейтральный тип направления. Они приобретают направление во время рендеринга от соседних символов. Некоторые из этих символов также имеют свойство bidi-mirrored, указывающее, что глиф должен отображаться в зеркальном отображении при использовании в тексте справа налево.

Тип направления во время рендеринга нейтрального символа может оставаться неоднозначным, когда метка помещается на границу между изменениями направления. Чтобы решить эту проблему, Unicode включает символы, которые имеют сильную направленность, не имеют глифа, связанного с ними, и игнорируются системами, которые не обрабатывают двунаправленный текст:

Арабский буквенный знак (U+061C)
Знак слева направо (U+200E)
Знак справа налево (U+200F)

Окружение двунаправленно нейтрального символа знаком слева направо заставит символ вести себя как символ слева направо, а окружение его знаком справа налево заставит его вести себя как символ справа налево. Поведение этих символов подробно описано в Двунаправленном алгоритме Unicode.

Двунаправленное общее форматирование

Хотя Unicode разработан для обработки нескольких языков, нескольких систем письма и даже текста, который идет либо слева направо, либо справа налево с минимальным вмешательством автора, существуют особые обстоятельства, когда смесь двунаправленного текста может стать сложной — требуя большего контроля со стороны автора. Для этих обстоятельств Unicode включает пять других символов для управления сложным встраиванием текста слева направо в текст справа налево и наоборот:

Вложение слева направо (U+202A)
Вложение справа налево (U+202B)
Всплывающее направленное форматирование (U+202C)
Переопределение слева направо (U+202D)
Переопределение справа налево (U+202E)
Изолировать слева направо (U+2066)
Изолят справа налево (U+2067)
Первый сильный изолят (U+2068)
Поп-направленный изолят (U+2069)

Символы межстрочной аннотации

Якорь межстрочной аннотации (U+FFF9)
Разделитель межстрочных аннотаций (U+FFFA)
Терминатор межстрочной аннотации (U+FFFB)

Сценарий-специфичный

Префиксный контроль формата
- Знак арабской цифры (U+0600)
- Арабский знак Санах (U+0601)
- Маркер арабской сноски (U+0602)
- Арабский знак Сафха (U+0603)
- Арабский знак Самват (U+0604)
- Арабская цифра сверху (U+0605)
- Арабский конец аята (U+06DD)
- Сирийская аббревиатура (U+070F)
- Арабский фунт Знак выше (U+0890)
- Арабский Пиастр Марка Выше (U+0891)
- Знак числа кайтхи (U+110BD)
- Знак номера Кайти вверху (U + 110CD)
Египетские иероглифы
- Вертикальный соединитель египетского иероглифа (U+13430)
- Горизонтальный соединитель египетского иероглифа (U+13431)
- Вставка египетского иероглифа в начало (U+13432)
- Вставка египетского иероглифа в начале снизу (U+13433)
- Вставка египетского иероглифа в верхнем конце (U+13434)
- Вставка египетского иероглифа в нижнем конце (U+13435)
- Наложение египетского иероглифа посередине (U+13436)
- Египетский иероглиф Начальный сегмент (U+13437)
- Конечный сегмент египетского иероглифа (U+13438)
- Вставка египетского иероглифа в середине (U+13439)
- Вставка египетского иероглифа сверху (U+1343A)
- Вставка египетского иероглифа внизу (U+1343B)
- Египетский иероглиф Начало Вложения (U+1343C)
- Конец египетского иероглифа (U+1343D)
- Египетский иероглиф Начало Стены Ограждения (U+1343E)
- Египетский иероглиф, торцевая стена (U+1343F)
Брахми
- Объединение чисел Брахми (U+1107F)
Формирование мертвых символов, происходящих от письменности брахми ( вирама и подобные диакритические знаки)
- Знак Деванагари Вирама (U + 094D)
- Бенгальский знак Вирама (U+09CD)
- Гурмукхи Знак Вирама (U+0A4D)
- Знак гуджарати Вирама (U+0ACD)
- Знак Ории Вирама (U+0B4D)
- Тамильский знак Вирама (U+0BCD)
- Телугу Знак Вирама (U+0C4D)
- Каннада Знак Вирама (U+0CCD)
- Знак малаялама с вертикальной полосой Вирама (U + 0D3B)
- Круглый знак малаялама Вирама (U + 0D3C)
- Малаяламский знак Вирама (U + 0D4D)
- Сингальский знак Аль-Лакуна (U+0DCA)
- Тайский иероглиф Пхинтху (U+0E3A)
- Тайский иероглиф Ямаккан (U+0E4E)
- Лаосский знак пали Вирама (U+0EBA)
- Мьянма Знак Вирама (U+1039)
- Тагальский знак Вирама (U+1714)
- Тагальский знак Памудпод (U+1715)
- Знак Хануно Памудпод (U + 1734)
- Кхмерский знак Вириам (U+17D1)
- Кхмерский знак Коенг (U+17D2)
- Тай Тхам Знак Сакот (U+1A60)
- Тай Там Син Ра Хаам (U + 1A7A)
- Балийский Адег Адег (U+1B44)
- Суданский знак Памаа (U + 1BAA)
- Суданский знак Вирама (U+1BAB)
- Батак Панголат (U+1BF2)
- Батак Панонгонан (U+1BF3)
- Силоти Нагри Знак Хасанта (U + A806)
- Силоти Нагри подписывает альтернативную Хасанту (U + A82C)
- Знак Саураштры Вирама (U+A8C4)
- Реджанг Вирама (U+A953)
- Яванский пангкон (U+A9C0)
- Митей Майек Вирама (U+AAF6)
- Кхароштхи Вирама (U+10A3F)
- Брахми Вирама (U+11046)
- Знак Брахми Старый тамильский Вирама (U+11070)
- Знак Кайти Вирама (U+110B9)
- Чакма Вирама (U+11133)
- Знак Шарада Вирама (U+111C0)
- Знак Ходжки Вирама (U+11235)
- Худавади Знак Вирама (U + 112EA)
- Грантха Сайн Вирама (U+1134D)
- Знак Тулу-Тигалари Вирама (U + 113CE)
- Знак Тулу-Тигалари Зацикленная Вирама (U + 113CF)
- Соединитель Тулу-Тигалари (U+113D0)
- Новый Знак Вирама (U+11442)
- Знак Тирута Вирама (U+114C2)
- Сиддхам Знак Вирама (U+115BF)
- Моди Знак Вирама (U+1163F)
- Знак Такри Вирама (U+116B6)
- Убийца знака Ахом (U+1172B)
- Знак Догра Вирама (U+11839)
- Ныряет Акуру Знак Халанта (U+1193D)
- Дайвс Акуру Вирама (U+1193E)
- Знак Нандинагари Вирама (U+119E0)
- Площадь Занабазара Знак Вирама (U+11A34)
- Площадь Занабазара, примыкающая к (U+11A47)
- Соединитель Соёмбо (U+11A99)
- Бхайксуки Знак Вирама (U+11C3F)
- Масарам Гонди подписывает Халанту (U + 11D44)
- Масарам Гонди Вирама (U+11D45)
- Гунджала Гонди Вирама (U + 11D97)
- Убийца знаков Кави (U+11F41)
- Кави-соединитель (U+11F42)
- Знак Гурунг Кхема Толхома (U + 1612F)
- Кират Рай Знак Вирама (U + 16D6B)
- Кират Рай Знак Саат (U+16D6C)
Исторические Вирамы с другими функциями
- Тибетский Марк Халанта (U+0F84)
- Мьянма Знак Асат (U+103A)
- Знак Лимбу Sa-I (U+193B)
- Встречайте Майека Апуна Иека (U+ABED)
- Чакма Маайя (U+11134)
Селекторы монгольских вариаций
- Монгольский свободный селектор вариантов один (U+180B)
- Монгольский свободный селектор вариаций два (U+180C)
- Монгольский свободный селектор вариантов три (U+180D)
- Разделитель монгольских гласных (U+180E)
Общие селекторы вариаций
- Селектор вариаций от 1 до 16 (U+FE00–U+FE0F)
- Селектор вариаций от -17 до -256 (U+E0100–U+E01EF)
Символы тегов (U+E0001 и U+E0020–U+E007F)
Тифинаг
- Соединитель согласных Тифинаг (U + 2D7F)
Огам
- Огамический знак пространства (U+1680)
Идеографический
- Индикатор идеографической вариации (U+303E)
- Идеографическое описание (U+2FF0–U+2FFB)
Управление музыкальным форматом
- Музыкальный символ Begin Beam (U+1D173)
- Музыкальный символ Конечный луч (U+1D174)
- Музыкальный символ Начало ничьей (U+1D175)
- Музыкальный символ, завершающий связь (U+1D176)
- Музыкальный символ Начало лигатуры (U+1D177)
- Музыкальный символ, завершающий фразу (U+1D178)
- Музыкальный символ начальная фраза (U+1D179)
- Музыкальный символ конечной фразы (U+1D17A)
Управление форматом стенографии
- Сокращенный формат перекрытия букв (U+1BCA0)
- Сокращенный формат, продолжающееся перекрытие (U+1BCA1)
- Сокращенный формат. Шаг вниз (U+1BCA2)
- Сокращенный формат шаг вверх (U+1BCA3)
Устаревшее альтернативное форматирование
- Запретить симметричный обмен (U+206A)
- Активировать симметричный обмен (U+206B)
- Запретить формирование арабских форм (U+206C)
- Активировать формирование арабских форм (U+206D)
- Национальные цифровые формы (U+206E)
- Номинальные формы цифр (U+206F)

Другие

Символ замены объекта (U+FFFC)
Заменяющий символ (U+FFFD)

Символы и кодовые точки

Термин «символ» не имеет четкого определения, и чаще всего мы имеем в виду графему . Графема визуально представлена своим глифом . Используемая гарнитура шрифта (часто ошибочно называемая шрифтом ) может отображать визуальные вариации одного и того же символа. Возможно, что две разные графемы могут иметь совершенно одинаковый глиф или быть визуально настолько близки, что среднестатистический читатель не сможет их отличить.

Графема почти всегда представлена одной кодовой точкой, например, ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A представлена только кодовой точкой U+0041.

Графема ЛАТИНСКАЯ ЗАГЛАВНАЯ A С ДИАЭРЕЗОЙ Ä является примером того, как символ может быть представлен более чем одной кодовой точкой. Это может быть U+00C4 или U+0041U+0308. U+0041 — это знакомая A, а U+0308 — ОБЪЕДИНЯЮЩАЯ ДИАЭРЕЗА ̈ , объединяющий диакритический знак .

Когда объединяющий знак соседствует с кодовой точкой необъединяющего знака, приложения для рендеринга текста должны накладывать объединяющий знак на глиф, представленный другой кодовой точкой, чтобы сформировать графему в соответствии с набором правил. ^[7]

Слово BÄM, таким образом, будет состоять из трех графем. Оно может состоять из трех кодовых точек или более в зависимости от того, как на самом деле составлены символы.

Пробелы, объединители и разделители

Unicode предоставляет список символов, которые он считает пробельными для поддержки взаимодействия. Реализации программного обеспечения и другие стандарты могут использовать этот термин для обозначения немного другого набора символов. Например, Java не считает U+00A0 NO-BREAK SPACE или U+0085 <control-0085> (NEXT LINE) пробелом, хотя Unicode считает. Пробелы — это символы, обычно предназначенные для сред программирования. Часто они не имеют синтаксического значения в таких средах программирования и игнорируются машинными интерпретаторами. Unicode обозначает устаревшие управляющие символы U+0009 по U+000D и U+0085 как пробелы, а также все символы, значение свойства General Category которых равно Separator. Всего существует 25 пробелов по состоянию на Unicode 16.0.

Графемные соединения и не соединения

Соединитель нулевой ширины (U+200D) и несоединитель нулевой ширины (U+200C) управляют соединением и лигированием глифов. Соединитель не заставляет символы, которые в противном случае не были бы соединены или лигированы, делать это, но в паре с несоединителем эти символы могут использоваться для управления свойствами соединения и лигирования окружающих двух соединяющих или лигирующих символов. Соединитель объединяющих графем (U+034F) используется для различения двух базовых символов как одной общей базы или диграфа, в основном для базовой обработки текста, сортировки строк, фальцовки регистра и т. д.

Соединители и разделители слов

Наиболее распространенным разделителем слов является пробел (U+0020). Однако существуют и другие соединители и разделители слов, которые также обозначают разрыв между словами и участвуют в алгоритмах переноса строк. Пробел без разрыва (U+00A0) также создает сдвиг базовой линии без глифа, но подавляет, а не разрешает перенос строки. Пробел нулевой ширины (U+200B) допускает перенос строки, но не предоставляет пробела: в некотором смысле соединяя, а не разделяя два слова. Наконец, Соединитель слов (U+2060) подавляет разрывы строк и также не использует пробелы, создаваемые сдвигом базовой линии.

Другие разделители

Разделитель строк (U+2028)
Разделитель абзацев (U+2029)

Они предоставляют Unicode собственные разделители абзацев и строк, независимые от устаревших кодированных управляющих символов ASCII, таких как возврат каретки (U+000A), перевод строки (U+000D) и следующая строка (U+0085). Unicode не предоставляет другие управляющие символы форматирования ASCII, которые, предположительно, не являются частью модели обработки простого текста Unicode. Эти устаревшие управляющие символы форматирования включают Tab (U+0009), Line Tabulation или Vertical Tab (U+000B) и Form Feed (U+000C), который также считается разрывом страницы.

Пространства

Символ пробела (U+0020), обычно вводимый с помощью клавиши пробела на клавиатуре, семантически служит разделителем слов во многих языках. По причинам, связанным с наследием, UCS также включает пробелы различных размеров, которые являются эквивалентами совместимости для символа пробела. Хотя эти пробелы различной ширины важны в типографике, модель обработки Unicode требует, чтобы такие визуальные эффекты обрабатывались с помощью форматированного текста, разметки и других подобных протоколов. Они включены в репертуар Unicode в первую очередь для обработки без потерь двустороннего транскодирования из других кодировок наборов символов. Эти пробелы включают:

En Quad (U+2000)
Эм Квад (U+2001)
В космосе (U+2002)
Эм Спейс (U+2003)
Три-на-Эм Пространство (U+2004)
Четыре-на-Эм Пространство (U+2005)
Шесть-на-Эм Пространство (U+2006)
Фигура Пространства (U+2007)
Пунктуационный пробел (U+2008)
Тонкое пространство (U+2009)
Пространство для волос (U+200A)
Среднее математическое пространство (U+205F)

За исключением исходного пробела ASCII, все остальные пробелы являются символами совместимости. В этом контексте это означает, что они фактически не добавляют семантического содержания в текст, а вместо этого обеспечивают управление стилем. В Unicode этот несемантический контроль стиля часто называют расширенным текстом, и он находится вне сферы целей Unicode. Вместо того, чтобы использовать разные пробелы в разных контекстах, этот стиль должен обрабатываться с помощью интеллектуального программного обеспечения для макетирования текста.

Три других разделителя слов, специфичных для различных систем письма:

Разделитель монгольских гласных (U+180E)
Идеографический пробел (U+3000): действует как идеографический разделитель и обычно отображается как пробел той же ширины, что и идеограмма.
Огамический знак пробела (U+1680): этот символ иногда отображается с глифом, а иногда как просто пробел.

Управляющие символы переноса строки

Несколько символов предназначены для контроля переносов строк, либо препятствуя им (символы без переносов), либо предлагая переносы строк, такие как мягкий дефис (U+00AD) (иногда называемый «скромным дефисом»). Такие символы, хотя и предназначены для стилизации, вероятно, незаменимы для сложных типов переносов строк, которые они делают возможными.

Прерывание ингибирования

Неразрывный дефис (U+2011)
Неразрывный пробел (U+00A0)
Тибетский разделитель знаков Цег Бстар (U+0F0C)
Узкий неразрывный пробел (U+202F)

Символы, запрещающие разрыв, должны быть эквивалентны последовательности символов, заключенной в Word Joiner U+2060. Однако Word Joiner может быть добавлен до или после любого символа, который позволяет разрыву строки запретить такой разрыв строки.

Перерыв, позволяющий

Мягкий дефис (U+00AD)
Тибетский знак межсложного тшег (U+0F0B)
Пробел нулевой ширины (U+200B)

Как запрещающие, так и разрешающие разрывы символы участвуют вместе с другими знаками пунктуации и пробелами, позволяя системам визуализации текста определять разрывы строк в алгоритме разрыва строк Unicode. ^[8]

Типы кодовых точек

Все кодовые точки, которым дано какое-либо назначение или использование, считаются назначенными кодовыми точками. Из них они могут быть назначены абстрактному символу или иным образом обозначены для какой-либо другой цели.

Назначенные символы

Большинство кодовых точек в реальном использовании были назначены абстрактным символам. Это включает в себя символы частного использования, которые, хотя формально и не обозначены стандартом Unicode для определенной цели, требуют, чтобы отправитель и получатель заранее договорились о том, как их следует интерпретировать для осуществления осмысленного обмена информацией .

Персонажи для личного пользования

UCS включает 137 468 символов частного использования, которые являются кодовыми точками для частного использования, распределенными по трем различным блокам, каждый из которых называется областью частного использования (PUA). Стандарт Unicode распознает кодовые точки внутри PUA как законные коды символов Unicode, но не назначает им никаких (абстрактных) символов. Вместо этого отдельные лица, организации, поставщики программного обеспечения, поставщики операционных систем, поставщики шрифтов и сообщества конечных пользователей могут свободно использовать их по своему усмотрению. В закрытых системах символы в PUA могут работать однозначно, что позволяет таким системам представлять символы или глифы, не определенные в Unicode. ^[9] В публичных системах их использование более проблематично, поскольку нет реестра и нет способа помешать нескольким организациям принять те же кодовые точки для разных целей. Одним из примеров такого конфликта является использование Apple U +F8FF для логотипа Apple , против использования ConScript Unicode Registry U+F8FF в качестве глифа клингонской мумификации в клингонском письме . ^[10]

Базовая многоязычная плоскость (плоскость 0) содержит 6400 символов частного использования в одноименной области частного использования PUA , которая варьируется от U+E000 до U+F8FF. Плоскости частного использования , плоскость 15 и плоскость 16, каждая имеет свои собственные PUA из 65 534 символов частного использования (при этом последние две кодовые точки каждой плоскости не являются символами). Это дополнительная область частного использования A , которая варьируется от U+F0000 до U+FFFFD, и дополнительная область частного использования B , которая варьируется от U+100000 до U+10FFFD.

PUA — это концепция, унаследованная от некоторых азиатских систем кодирования. Эти системы имели частные области использования для кодирования того, что японцы называют гайдзи (редкие символы, обычно не встречающиеся в шрифтах) способами, специфичными для приложений.

Суррогаты

UCS использует суррогаты для адресации символов за пределами исходной базовой многоязыковой плоскости, не прибегая к представлениям слов длиной более 16 бит. ^[11] Существует 1024 «высоких» суррогата (D800–DBFF) и 1024 «низких» суррогата (DC00–DFFF). Объединив пару суррогатов, можно адресовать оставшиеся символы во всех других плоскостях (1024 × 1024 = 1048576 кодовых точек в других 16 плоскостях). В UTF-16 они всегда должны появляться парами, как высокий суррогат, за которым следует низкий суррогат, таким образом, используя 32 бита для обозначения одной кодовой точки.

Суррогатная пара обозначает кодовую точку

10000 ₁₆ + ( В - Г800 ₁₆ ) × 400 ₁₆ + ( Д - Д800 ₁₆ )

где H и L — числовые значения высокого и низкого суррогатов соответственно. ^[12]

Поскольку высокие суррогатные значения в диапазоне DB80–DBFF всегда дают значения в плоскостях частного использования, высокий суррогатный диапазон можно далее разделить на (нормальные) высокие суррогаты (D800–DB7F) и «высокие суррогаты частного использования» (DB80–DBFF).

Изолированные суррогатные кодовые точки не имеют общей интерпретации; следовательно, для этого диапазона не предоставляются таблицы кодов символов или списки имен. В языке программирования Python отдельные суррогатные коды используются для встраивания недекодируемых байтов в строки Unicode. ^[13]

Неперсонажи

Термин «несимвол» без дефиса относится к 66 кодовым точкам (помеченным <not a character>), постоянно зарезервированным для внутреннего использования, и поэтому гарантированно никогда не будет назначен символу. ^[14] Каждая из 17 плоскостей имеет свои две конечные кодовые точки, отведенные в качестве несимволов. Таким образом, несимволами являются: U+FFFE и U+FFFF на BMP, U+1FFFE и U+1FFFF на Plane 1 и так далее, до U+10FFFE и U+10FFFF на Plane 16, всего 34 кодовых точки. Кроме того, в BMP есть непрерывный диапазон из еще 32 несимволических кодовых точек: U+FDD0..U+FDEF. Программные реализации могут свободно использовать эти кодовые точки для внутреннего использования. Одним из особенно полезных примеров несимвола является кодовая точка U+FFFE. Эта кодовая точка имеет обратную последовательность байтов UTF-16/UCS-2 метки порядка байтов (U+FEFF). Если поток текста содержит этот несимвол, это хороший признак того, что текст был интерпретирован с неправильным порядком байтов .

Версии стандарта Unicode с 3.1.0 по 6.3.0 утверждали, что несимволы «никогда не должны заменяться». Исправление № 9 стандарта позже заявило, что это приводит к «необоснованному чрезмерному отклонению», разъяснив, что «[Несимволы] не являются незаконными при обмене и не приводят к неправильному формированию текста Unicode», и удалило первоначальное утверждение.

Зарезервированные кодовые точки

Все остальные кодовые точки, которые не обозначены, называются зарезервированными. Эти кодовые точки могут быть назначены для конкретного использования в будущих версиях стандарта Unicode.

Символы, графемные кластеры и глифы

В то время как многие другие наборы символов назначают символ для каждого возможного представления символа в виде глифа, Unicode стремится рассматривать символы отдельно от глифов. Это различие не всегда однозначно; однако, несколько примеров помогут проиллюстрировать различие. Часто два символа могут быть объединены типографским способом для улучшения читаемости текста. Например, последовательность из трех букв «ffi» может рассматриваться как один глиф. Другие наборы символов часто назначают этому глифу кодовую точку в дополнение к отдельным буквам: «f» и «i».

Кроме того, Unicode рассматривает диакритические модифицированные буквы как отдельные символы, которые при отображении становятся одним глифом. Например, «o» с диарезисом : « ö ». Традиционно другие наборы символов назначали уникальную кодовую точку символа для каждой диакритической модифицированной буквы, используемой в каждом языке. Unicode стремится создать более гибкий подход, позволяя комбинировать диакритические символы для комбинирования с любой буквой. Это может значительно сократить количество активных кодовых точек, необходимых для набора символов. В качестве примера рассмотрим язык, который использует латинский алфавит и объединяет диарезис с заглавными и строчными буквами «a», «o» и «u». При подходе Unicode в набор символов необходимо добавить только диакритический символ диарезиса для использования с латинскими буквами: «a», «A», «o», «O», «u» и «U»: всего семь символов. Устаревший набор символов должен добавить шесть предварительно составленных букв с диэрезисом в дополнение к шести кодовым точкам, которые он использует для букв без диэрезиса: всего двенадцать кодовых точек символов.

Совместимость символов

UCS включает тысячи символов, которые Unicode определяет как символы совместимости. Это символы, которые были включены в UCS, чтобы обеспечить отдельные кодовые точки для символов, которые различаются в других наборах символов, но не будут различаться в подходе Unicode к символам.

Главной причиной такого различия было то, что Unicode делает различие между символами и глифами. Например, при написании английского языка курсивом буква «i» может принимать разные формы, независимо от того, появляется ли она в начале слова, в конце слова, в середине слова или изолированно. Такие языки, как арабский , написанные арабским шрифтом, всегда являются курсивными. Каждая буква имеет много разных форм. UCS включает 730 символов арабской формы, которые распадаются всего на 88 уникальных арабских символов. Однако эти дополнительные арабские символы включены для того, чтобы программное обеспечение для обработки текста могло переводить текст из других наборов символов в UCS и обратно без потери информации, что имеет решающее значение для программного обеспечения, не поддерживающего Unicode.

Однако для UCS и Unicode в частности предпочтительный подход заключается в том, чтобы всегда кодировать или сопоставлять эту букву с одним и тем же символом, независимо от того, где она появляется в слове. Затем различные формы каждой буквы определяются методами программного обеспечения шрифта и макета текста. Таким образом, внутренняя память для символов остается одинаковой независимо от того, где символ появляется в слове. Это значительно упрощает поиск, сортировку и другие операции по обработке текста.

Свойства персонажа

Каждый символ в Unicode определяется большим и растущим набором свойств. Большинство этих свойств не являются частью универсального набора символов. Свойства облегчают обработку текста, включая сопоставление или сортировку текста, идентификацию слов, предложений и графем, рендеринг или отображение текста и т. д. Ниже приведен список некоторых основных свойств. В базе данных символов Unicode задокументировано множество других. ^[15]

Unicode предоставляет онлайн-базу данных ^[21] для интерактивного запроса всего репертуара символов Unicode по различным свойствам.

Смотрите также

Ссылки

^ "Стандарт Unicode". Консорциум Unicode . Получено 2016-08-09 .
^ "Дорожные карты к Unicode". Консорциум Unicode . Получено 2024-09-12 .
^ "FAQ - Символы частного использования, несимволы и стражи". www.unicode.org . Получено 24.10.2023 .
^ "Раздел 2.13: Специальные символы". Стандарт Unicode . Консорциум Unicode. Сентябрь 2024 г.
^ "Раздел 4.12: Символы с необычными свойствами". Стандарт Unicode . Консорциум Unicode. Сентябрь 2024 г.
^ "Раздел 6.2: Общая пунктуация". Стандарт Unicode . Консорциум Unicode. Сентябрь 2024 г.
^ "UTN #2: Общий метод отображения комбинированных знаков". www.unicode.org . Получено 16.12.2020 .
^ "UAX #14: Алгоритм разбиения строк Unicode". Консорциум Unicode. 2016-06-01 . Получено 2016-08-09 .
^ "Раздел 23.5: Символы частного использования" (PDF) . Стандарт Unicode . Консорциум Unicode. Сентябрь 2022 г.
↑ Майкл Эверсон (15.01.2004). «Клингонский: U+F8D0 - U+F8FF».
^ "Раздел 23.6: Область суррогатов" (PDF) . Стандарт Unicode . Консорциум Unicode. Сентябрь 2022 г.
^ Каплан, Майкл. «Суррогатная поддержка в продуктах Microsoft».
^ v. Löwis, Martin (2009-04-22). "Недекодируемые байты в системных символьных интерфейсах". Предложения по улучшению Python . PEP 383. Получено 09.08.2016 .
^ "Раздел 23.7: Несимволы" (PDF) . Стандарт Unicode . Консорциум Unicode. Сентябрь 2022 г.
^ "База данных символов Unicode". Консорциум Unicode . Получено 2016-08-09 .
^ Фрейтаг, Асмус; МакГован, Рик; Уистлер, Кен. «Техническое примечание Unicode № 27 — Известные аномалии в именах символов Unicode». Консорциум Unicode.
^ Не официальный представительный глиф Unicode, а просто представительный глиф. Чтобы увидеть официальный представительный глиф Unicode, см. таблицы кодов.
^ "Таблицы кодов символов". Консорциум Unicode . Получено 2016-08-09 .
^ "UAX #44: База данных символов Unicode". Значения общей категории . Консорциум Unicode. 2014-06-05 . Получено 2016-08-09 .
^ Дэвис, Марк; Янку, Лауренциу; Уистлер, Кен. "Таблица 9. Таблица свойств § PropList.txt". Приложение к стандарту Unicode № 44 — База данных символов Unicode . Консорциум Unicode.
^ "Unicode Utilities: Character Property Index". Консорциум Unicode . Получено 2015-06-09 .

Внешние ссылки

На Викискладе есть медиафайлы по теме Unicode .

Консорциум Unicode
decodeunicode.org Unicode Wiki со всеми 98884 графическими символами Unicode 5.0 в виде gif-файлов, полнотекстовый поиск
Символы Unicode по свойствам