Самолет (Юникод)

В стандарте Unicode плоскость — это непрерывная группа из 65 536 (2 ¹⁶ ) кодовых точек . Существует 17 плоскостей, идентифицируемых числами от 0 до 16, что соответствует возможным значениям 00–10 ₁₆ первых двух позиций в шестипозиционном шестнадцатеричном формате (U+ hh hhhh ). Плоскость 0 — это базовая многоязычная плоскость (BMP), которая содержит наиболее часто используемые символы. Более высокие плоскости с 1 по 16 называются «дополнительными плоскостями». ^[1] Последняя кодовая точка в Unicode — это последняя кодовая точка в плоскости 16, U+10FFFF. Начиная с версии Unicode 16.0, пяти плоскостям назначены кодовые точки (символы), а семь имеют названия.

Ограничение в 17 плоскостей обусловлено UTF-16 , который может кодировать 2x20 ^{кодовых} точек (16 плоскостей) как пары слов , а также BMP как одно слово. ^[2] UTF-8 был разработан с гораздо большим ограничением в 2x31 ⁽ 2,147,483,648) кодовых точек (32,768 плоскостей), и все равно сможет кодировать 2x21 ⁽ 2,097,152) кодовых точек (32 плоскости) даже при текущем ограничении в 4 байта . ^[3]

17 плоскостей могут вместить 1 114 112 кодовых точек. Из них 2 048 являются суррогатами (используются для создания пар в UTF-16), 66 не являются символами , а 137 468 зарезервированы для частного использования , оставляя 974 530 для публичного назначения.

Плоскости далее подразделяются на блоки Unicode , которые, в отличие от плоскостей, не имеют фиксированного размера. 338 блоков, определенных в Unicode 16.0, покрывают 27% возможного пространства кодовых точек и варьируются по размеру от минимум 16 кодовых точек (шестнадцать блоков) до максимум 65 536 кодовых точек (дополнительные зоны частного использования A и B, которые составляют всю совокупность плоскостей 15 и 16). Для будущего использования были предварительно нанесены диапазоны символов для большинства известных современных и древних систем письма. ^[4]

Обзор

Назначенные символы

^ Кодовые точки, выделенные для блока Unicode .

Базовый многоязычный уровень

Первая плоскость, плоскость 0 , базовая многоязыковая плоскость ( BMP ), содержит символы почти всех современных языков и большое количество символов . Основной целью BMP является поддержка унификации предыдущих наборов символов, а также символов для письма . Большинство назначенных кодовых точек в BMP используются для кодирования китайских, японских и корейских ( CJK ) символов.

Коды High Surrogate ( U+D800–U+DBFF ) и Low Surrogate ( U+DC00–U+DFFF ) зарезервированы для кодирования не-BMP символов в UTF-16 с использованием пары 16- битных кодов: один High Surrogate и один Low Surrogate. Одна точка кода суррогата никогда не будет назначена символу.

65 520 из 65 536 кодовых точек в этой плоскости были выделены для блока Unicode, оставив всего 16 кодовых точек в одном нераспределенном диапазоне (2FE0..2FEF).

Начиная с версии Unicode 16.0 ^[update], BMP включает в себя следующие 164 блока:

Алфавитные сценарии слева направо:
- Базовая латиница (нижняя половина ISO/IEC 8859-1 : ISO/IEC 646:1991-IRV или ASCII ) (0000–007F)
- Приложение Latin-1 (верхняя половина ISO/IEC 8859-1 ) (0080–00FF)
- Расширенная латиница-A (0100–017F)
- Расширенная латиница-B (0180–024F)
- Расширения IPA (0250–02AF)
- Буквы-модификаторы интервала (02B0–02FF)
- Объединение диакритических знаков (0300–036F)
- Греческий и коптский (0370–03FF)
- Кириллица (0400–04FF)
- Кириллическое дополнение (0500–052F)
- Армянский (0530–058F)
Семитские абджады и другие письменности с письмом справа налево:
- Иврит (0590–05FF)
- Арабский (0600–06FF)
- Сирийский (0700–074F)
- Приложение на арабском языке (0750–077F)
- Тана (0780–07BF)
- Н'Ко (07C0–07FF)
- Самаритянин (0800–083F)
- Мандейский (0840–085F)
- Сирийское дополнение (0860–086F)
- Арабский расширенный-B (0870–089F)
- Арабский расширенный-A (08A0–08FF)
Брахмические письмена:
- Деванагари (0900–097F)
- Бенгальский (0980–09FF)
- Гурмукхи (0A00–0A7F)
- Гуджарати (0A80–0AFF)
- Ория (0B00–0B7F)
- Тамильский (0B80–0BFF)
- Телугу (0C00–0C7F)
- Каннада (0C80–0CFF)
- Малаялам (0D00–0D7F)
- Сингальский (0D80–0DFF)
- Тайский (0E00–0E7F)
- Лаосский (0E80–0EFF)
- Тибетский (0F00–0FFF)
- Мьянма (1000–109F)
Другие алфавитные или слоговые письменности с написанием слева направо:
- Грузинский (10A0–10FF)
- Хангыль Джамо (1100–11FF)
- Эфиопский (1200–137F)
- Эфиопское приложение (1380–139F)
- Чероки (13A0–13FF)
- Единая канадская аборигенная слоговая система (1400–167F)
- Огам (1680–169F)
- Рунический (16A0–16FF)
Филиппинские сценарии:
- Тагальский (1700–171F)
- Хануноо (1720–173F)
- Бухид (1740–175F)
- Тагбанва (1760–177F)
Кхмеры (1780–17FF)
Монгольский (1800–18AF)
Расширенная унифицированная канадская аборигенная слоговая система (18B0–18FF)
Брахмические письмена:
- Лимбу (1900–194F)
Тайские письмена:
- Тай Ле (1950–197F)
- Нью Тай Лю (1980–19DF)
- Кхмерские символы (19E0–19FF)
- Бугийский (1A00–1A1F)
- Тай Тхам (1A20–1AAF)
Расширенное сочетание диакритических знаков (1AB0–1AFF)
Индонезийские письменности:
- Балийский (1B00–1B7F)
- Суданский (1B80–1BBF)
- Батак (1BC0–1BFF)
Лепча (1C00–1C4F)
Ол Чики (1C50–1C7F)
Другие алфавитные или слоговые дополнения слева направо:
- Кириллица расширенная-C (1C80–1C8F)
- Грузинский расширенный (1C90–1CBF)
Суданская добавка (1CC0–1CCF)
Ведические расширения (1CD0–1CFF)
Другие алфавитные дополнения слева направо:
- Фонетические расширения (1D00–1D7F)
- Дополнение к фонетическим расширениям (1D80–1DBF)
- Дополнение к комбинированным диакритическим знакам (1DC0–1DFF)
- Расширенная латиница (дополнительная ) (1E00–1EFF)
- Расширенный греческий (1F00–1FFF)
Символы :
- Общая пунктуация (2000–206F)
- Надстрочные и подстрочные индексы (2070–209F)
- Символы валют (20A0–20CF)
- Объединение диакритических знаков для символов (20D0–20FF)
- Буквенные символы (2100–214F)
- Числовые формы (2150–218F)
- Стрелки (2190–21FF)
- Математические операторы (2200–22FF)
- Разное техническое (2300–23FF)
- Контрольные снимки (2400–243F)
- Оптическое распознавание символов (2440–245F)
- Заключенные буквенно-цифровые символы (2460–24FF)
- Чертеж коробки (2500–257F)
- Элементы блока (2580–259F)
- Геометрические фигуры (25A0–25FF)
- Различные символы (2600–26FF)
- Дингбаты (2700–27BF)
- Различные математические символы-A (27C0–27EF)
- Дополнительные стрелки-A (27F0–27FF)
- Шаблоны Брайля (2800–28FF)
- Дополнительные стрелки-B (2900–297F)
- Различные математические символы-B (2980–29FF)
- Дополнительные математические операторы (2A00–2AFF)
- Различные символы и стрелки (2B00–2BFF)
Другие алфавитные шрифты с направлением письма слева направо или дополнения к ним:
- Глаголица (2C00–2C5F)
- Расширенная латиница-C (2C60–2C7F)
- Коптский (2C80–2CFF)
- Грузинское приложение (2D00–2D2F)
Африканские письменности:
- Тифинаг (2D30–2D7F)
- Эфиопский расширенный (2D80–2DDF)
Другие алфавитные дополнения слева направо:
- Кириллица расширенная-A (2DE0–2DFF)
- Дополнительная пунктуация (2E00–2E7F)
Шрифты и символы CJK :
- Добавка радикалов CJK (2E80–2EFF)
- Радикалы Канси (2F00–2FDF)
- Символы идеографического описания (2FF0–2FFF)
- Символы и пунктуация CJK (3000–303F)
- Хирагана (3040–309F)
- Катакана (30A0–30FF)
- Бопомофо (3100–312F)
- Совместимость с хангылем Jamo (3130–318F)
- Канбун (3190–319F)
- Бопомофо расширенный (31A0–31BF)
- Штрихи CJK (31C0–31EF)
- Фонетические расширения катаканы (31F0–31FF)
- Прилагаемые письма и месяцы CJK (3200–32FF)
- Совместимость с CJK (3300–33FF)
- Расширение A унифицированных идеограмм CJK (3400–4DBF)
- Символы гексаграммы Ицзин (4DC0–4DFF)
- Унифицированные идеограммы CJK (4E00–9FFF)
Слоги И (A000–A48F)
Радикалы Yi (A490–A4CF)
Лису (A4D0–A4FF)
Африканские письменности:
- Вай (A500–A63F)
Другие алфавитные дополнения слева направо:
- Кириллица расширенная-B (A640–A69F)
Африканские письменности:
- Бамум (A6A0–A6FF)
Другие алфавитные дополнения слева направо:
- Буквы модификатора тона (A700–A71F)
- Расширенная латиница-D (A720–A7FF)
Брахмические письмена:
- Силоти Нагри (A800–A82F)
- Формы общих индийских чисел (A830–A83F)
- Пхагс-па (A840–A87F)
- Саураштра (A880–A8DF)
- Расширенный деванагари (A8E0–A8FF)
- Кая Ли (A900–A92F)
- Реджанг (A930–A95F)
Хангыль Джамо Расширенный-A (A960–A97F)
Брахмические письмена:
- Яванский (A980–A9DF)
- Мьянма расширенный-B (A9E0–A9FF)
- Чам (AA00–AA5F)
- Мьянма Расширенный-A (AA60–AA7F)
- Тай Вьет (AA80–AADF)
- Расширения Meetei Mayek (AAE0 – AAFF)
Эфиопский расширенный-A (AB00–AB2F)
Расширенная латиница-E (AB30–AB6F)
Дополнение чероки (AB70–ABBF)
Митей Мейек (ABC0–ABFF)
Слоги хангыля (AC00–D7AF)
Хангыль Джамо Расширенный-B (D7B0–D7FF)
Суррогаты :
- Высокие суррогаты (D800–DB7F)
- Суррогаты с высоким уровнем частного использования (DB80–DBFF)
- Низкие суррогаты (DC00–DFFF)
Зона частного пользования (E000–F8FF)
Совместимые идеограммы CJK (F900–FAFF)
Алфавитные формы представления (FB00–FB4F)
Формы презентаций на арабском языке-A (FB50–FDFF)
Селекторы вариаций (FE00–FE0F)
Вертикальные формы (FE10–FE1F)
Объединение половинных отметок (FE20–FE2F)
Формы совместимости CJK (FE30–FE4F)
Малые варианты формы (FE50–FE6F)
Формы презентаций на арабском языке-B (FE70–FEFF)
Формы половинной и полной ширины (FF00–FFEF)
Специальные предложения (FFF0–FFFF)

Дополнительный многоязычный уровень

Plane 1 , Supplementary Multilingual Plane ( SMP ), содержит исторические письменности (кроме идеографической CJK), а также символы и обозначения, используемые в определенных областях. Письменность включает линейное письмо B , египетские иероглифы и клинопись . Она также включает реформированные английские орфографии, такие как Shavian и Deseret , и некоторые современные письменности, такие как Osage , Warang Citi , Adlam , Wancho и Toto . Символы и обозначения включают историческую и современную музыкальную нотацию ; математические буквенно-цифровые обозначения ; стенографии; эмодзи и другие наборы пиктограмм; и игровые символы для игральных карт , маджонга и домино .

Начиная с версии Unicode 16.0 ^[update], SMP включает в себя следующие 161 блок:

Архаичный греческий и другие виды письма с написанием слева направо:
- Линейное слоговое письмо Б (10000–1007F)
- Идеограммы линейного письма Б (10080–100FF)
- Эгейские числа (10100–1013F)
- Древнегреческие числа (10140–1018F)
- Древние символы (10190–101CF)
- Фестский диск (101D0–101FF)
- Ликийцы (10280–1029 гг.)
- Карийский (102A0–102DF)
- Коптские эпакты (102E0–102FF)
- Старый курсив (10300–1032F)
- Готика (10330–1034F)
- Древнепермский (10350–1037F)
- Угаритский (10380–1039F)
- Древнеперсидский (103A0–103DF)
- Дезерет (10400–1044F)
- Шэвиан (10450–1047F)
- Османия (10480–104AF)
- Осейджи (104B0–104FF)
- Эльбасан (10500–1052F)
- Кавказский албанец (10530–1056F)
- Виткуки (10570–105BF)
- Тодхри (105C0–105FF)
- Линейное письмо А (10600–1077F)
- Расширенная латиница-F (10780–107BF)
Письма с направлением письма справа налево:
- Кипрская слоговая азбука (10800–1083F)
- Имперский арамейский (10840–1085F)
- Пальмирена (10860–1087F)
- Набатейский (10880–108 гг. после эры)
- Хатран (108E0–108FF)
- Финикийцы (10900–1091 гг.)
- Лидийский (10920–1093F)
- Мероитские иероглифы (10980–1099F)
- Мероитский курсив (109A0–109FF)
- Кхароштхи (10A00–10A5F)
- Древнеюжноаравийский (10A60–10A7F)
- Древнесевероаравийский (10A80–10A9F)
- Манихейство (10AC0–10AFF)
- Авестийский (10B00–10B3F)
- Парфянские надписи (10B40–10B5F)
- Надписи на пехлевийском языке (10B60–10B7F)
- Псалтырь Пехлеви (10B80–10BAF)
- Древнетюркский (10C00–10C4F)
- Древневенгерский (10C80–10CFF)
- Ханифи Рохинджа (10D00–10D3F)
- Гарай (10D40–10D8F)
- Числовые символы Руми (10E60–10E7F)
- Езиды (10E80–10EBF)
- Арабский расширенный-C (10EC0–10EFF)
- Древнесогдийский (10F00–10F2F)
- Согдийский (10F30–10F6F)
- Старый уйгурский (10F70–10FAF)
- Хорезмийский (10FB0–10FDF)
- Елимейский (10FE0–10FFF)
Брахмические письмена:
- Брахми (11000–1107F)
- Каити (11080–110CF)
- Сора Сомпенг (110D0–110FF)
- Чакма (11100–1114F)
- Махаджани (11150–1117F)
- Шарада (11180–111DF)
- Сингальские архаичные числа (111E0–111FF)
- Хойки (11200–1124F)
- Мултани (11280–112AF)
- Худавади (112B0–112FF)
- Грантха (11300–1137F)
- Тулу-Тигалари (11380–113FF)
- Ньюа (11400–1147F)
- Тирута (11480–114DF)
- Сиддхам (11580–115FF)
- Моди (11600–1165F)
- Монгольское дополнение (11660–1167F)
- Такри (11680–116CF)
- Мьянма расширенный-C (116D0–116FF)
- Ахом (11700–1174F)
- Догра (11800–1184F)
- Варанг Сити (118A0–118FF)
- Погружения Акуру (11900–1195F)
- Нандинагари (119A0–119FF)
- Площадь Занабазара (11A00–11A4F)
- Соёмбо (11A50–11AAF)
Расширенная версия канадской аборигенной слоговой письменности (11AB0–11ABF)
Брахмические письмена:
- Пау Чин Хау (11AC0–11AFF)
- Расширенный курс деванагари-A (11B00–11B5F)
- Сунувар (11BC0–11BFF)
- Бхайксуки (11C00–11C6F)
- Мархен (11C70–11CBF)
- Масарам Гонди (11D00–11D5F)
- Гунджала Гонди (11D60–11DAF)
- Макасар (11EE0–11EFF)
- Кави (11F00–11F5F)
Дополнение Лису (11FB0–11FBF)
Дополнение на тамильском языке (11FC0–11FFF)
Клинописные надписи:
- Клинопись (12000–123FF)
- Клинописные цифры и знаки препинания (12400–1247F)
- Ранняя династическая клинопись (12480–1254 гг.)
Кипро-минойский (12F90–12FFF)
Иероглифические письмена:
- Египетские иероглифы (13000–1342F)
- Элементы управления форматом египетских иероглифов (13430–1345F)
- Египетские иероглифы расширенные-A (13460–143FF)
- Анатолийские иероглифы (14400–1467F)
Гурунг Кхема (16100–1613F)
Дополнение Бамум (16800–16A3F)
Мро (16A40–16A6F)
Тангса (16A70–16ACF)
Басса Вах (16 г. н. э.–16 г. н. э.)
Пахау Хмонг (16B00–16B8F)
Кират Рай (16D40–16D7F)
Медефаидрин (16E40–16E9F)
Мяо (16F00–16F9F)
Восточноазиатские письменности:
- Идеографические символы и пунктуация (16FE0–16FFF)
- Тангуты (17000–187FF)
- Тангутские компоненты (18800–18AFF)
- Киданьское мелкое письмо (18B00–18CFF)
- Тангутское дополнение (18D00–18D7F)
- Кана расширенная-B (1AFF0–1AFFF)
- Добавка к Кане (1B000–1B0FF)
- Кана расширенная-A (1B100–1B12F)
- Маленькое расширение Кана (1B130–1B16F)
- Нушу (1B170–1B2FF)
Системы записи нот:
- Дюплоян (1BC00–1BC9F)
- Элементы управления сокращенным форматом (1BCA0–1BCAF)
Символы для дополнения Legacy Computing (1CC00–1CEBF)
Символы и цифры:
- Нотная запись :
  - Знаменная музыкальная грамота (1CF00–1CFCF)
  - Византийские музыкальные символы (1D000–1D0FF)
  - Музыкальные символы (1D100–1D1FF)
  - Древнегреческая музыкальная нотация (1D200–1D24F)
- Цифры кактовика (1D2C0–1D2DF)
- Цифры майя (1D2E0–1D2FF)
- Математические символы :
  - Символы Тай Сюань Цзин (1D300–1D35F)
  - Счетные стержневые цифры (1D360–1D37F)
  - Математические буквенно-цифровые символы (1D400–1D7FF)
Системы записи нот:
- Надпись на жесте в Саттоне (1D800–1DAAF)
Другие варианты написания слева направо:
- Расширенная латиница-G (1DF00–1DFFF)
- Глаголическое приложение (1E000–1E02F)
- Кириллица расширенная-D (1E030–1E08F)
Ньякенг Пуачуэ Хмонг (1E100–1E14F)
Тото (1E290–1E2BF)
Ванчо (1E2C0–1E2FF)
Наг Мундари (1E4D0–1E4FF)
Ол Онал (1E5D0–1E5FF)
Африканские письменности:
- Эфиопский расширенный-B (1E7E0–1E7FF)
- Мэндэ Кикакуи (1E800–1E8DF)
- Адлам (1E900–1E95F)
Символы и цифры:
- Индийские номера Siyaq (1EC70–1ECBF)
- Османские сиякские цифры (1ED00–1ED4F)
- Символы арабского математического алфавита (1EE00–1EEFF)
- Игровые плитки и карты:
  - Плитки для маджонга (1F000–1F02F)
  - Плитки домино (1F030–1F09F)
  - Игральные карты (1F0A0–1F0FF)
- Прилагаемое буквенно-цифровое дополнение (1F100–1F1FF)
- Прилагаемое идеографическое приложение (1F200–1F2FF)
- Различные символы и пиктограммы (1F300–1F5FF)
- Смайлики (1F600–1F64F)
- Орнаментальные дингбаты (1F650–1F67F)
- Транспортные и картографические символы (1F680–1F6FF)
- Алхимические символы (1F700–1F77F)
- Геометрические фигуры расширенные (1F780–1F7FF)
- Дополнительные стрелки-C (1F800–1F8FF)
- Дополнительные символы и пиктограммы (1F900–1F9FF)
- Шахматные символы (1FA00–1FA6F)
- Символы и пиктограммы расширенные-A (1FA70–1FAFF)
- Символы для устаревших вычислений (1FB00–1FBFF)

Дополнительная идеографическая плоскость

Плоскость 2 , дополнительная идеографическая плоскость ( SIP ), используется для идеографических символов CJK, в основном унифицированных идеографических символов CJK , которые не были включены в более ранние стандарты кодирования символов.

Начиная с версии Unicode 16.0 ^[update], SIP состоит из следующих семи блоков:

Расширение B унифицированных идеограмм CJK (20000–2A6DF)
Расширение C унифицированных идеограмм CJK (2A700–2B73F)
Расширение D унифицированных идеограмм CJK (2B740–2B81F)
Расширение E унифицированных идеограмм CJK (2B820–2CEAF)
Расширение F унифицированных идеограмм CJK (2CEB0–2EBEF)
Расширение унифицированных идеограмм CJK I (2EBF0–2EE5F)
Дополнение к идеограммам совместимости CJK (2F800–2FA1F)

Третичная идеографическая плоскость

Плоскость 3 — это третичная идеографическая плоскость (TIP). Расширение CJK Unified Ideographs Extension G было добавлено к TIP в Unicode 13.0, выпущенном в марте 2020 года. ^[5] Оно также предварительно выделено для шрифтов Oracle Bone и Small Seal Script . ^[6]

Начиная с Unicode 16.0 ^[update], TIP состоит из следующих двух блоков:

Расширение унифицированных идеограмм CJK G (30000–3134F)
Расширение H унифицированных идеограмм CJK (31350–323AF)

Нераспределенные самолеты

Плоскости с 4 по 13 (плоскости с 4 по D в шестнадцатеричном формате ): для плоскостей с 4 по 13 еще не назначены и не предложены для назначения никакие символы.

Дополнительный самолет специального назначения

Плоскость 14 ( E в шестнадцатеричном формате) обозначается как дополнительная плоскость специального назначения ( SSP ). Она включает в себя следующие два блока , начиная с Unicode 16.0 :^[update]

Теги (E0000–E007F)
Дополнение к селекторам вариаций (E0100–E01EF) – используется для указания альтернативных глифов для символов.

Самолеты для частного использования

Две плоскости 15 и 16 (плоскости F и 10 в шестнадцатеричном формате) каждая содержит " Область частного использования ". Они содержат блоки с именами Дополнительная область частного использования-A ( PUA-A ) и -B ( PUA-B ). Области частного использования доступны для использования сторонами за пределами ISO и Unicode (кодировка символов частного использования).

Ссылки

^ "Глоссарий". www.unicode.org . Получено 2021-09-27 .
^ См. Таблицу 3.5 «Распределение бит UTF-16» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
^ См. Таблицу 3.6 «Распределение бит UTF-8» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
^ "Дорожные карты к Unicode". www.unicode.org . Получено 2021-09-27 .
^ «Анонс стандарта Unicode, версия 13.0».
^ «Предлагаемые новые символы: конвейер». www.unicode.org .