stringtranslate.com

Самолет (Юникод)

В стандарте Unicode плоскость — это непрерывная группа из 65 536 (2 16 ) кодовых точек . Существует 17 плоскостей, обозначенных числами от 0 до 16, что соответствует возможным значениям 00–10 16 первых двух позиций в шестизначном шестнадцатеричном формате (U+ hh hhhh ). Плоскость 0 — это базовая многоязычная плоскость (BMP), содержащая наиболее часто используемые символы. Высшие планы с 1 по 16 называются «дополнительными планами». [1] Последняя кодовая точка в Юникоде — это последняя кодовая точка в плоскости 16, U+10FFFF. Начиная с версии Unicode 15.1, пяти плоскостям присвоены кодовые точки (символы), а семь имеют имена.

Ограничение в 17 плоскостей связано с UTF-16 , который может кодировать 2 20 кодовых точек (16 плоскостей) как пары слов , а также BMP как одно слово. [2] UTF-8 был разработан с гораздо большим пределом в 2 31 (2 147 483 648) кодовых точек (32 768 плоскостей) и по-прежнему сможет кодировать 2 21 (2 097 152) кодовых точки (32 плоскости) даже при текущем пределе 4 байта . [3]

17 плоскостей могут вместить 1 114 112 кодовых точек. Из них 2048 являются суррогатными (используются для создания пар в UTF-16), 66 — несимвольными , а 137 468 зарезервированы для частного использования , а 974 530 — для публичного назначения.

Плоскости далее подразделяются на блоки Unicode , которые, в отличие от плоскостей, не имеют фиксированного размера. 328 блоков, определенных в Unicode 15.1, покрывают 26% возможного пространства кодовых точек и имеют размер от минимум 16 кодовых точек (шестнадцати блоков) до максимум 65 536 кодовых точек (дополнительная область частного использования-A и -B, которые составляют совокупность плоскостей 15 и 16). Для будущего использования предварительно намечены диапазоны символов для большинства известных современных и древних систем письма. [4]

Обзор

Назначенные персонажи

  1. ^ Кодовые точки, выделенные в блок Юникода .

Базовая многоязычная плоскость

Карта базовой многоязычной плоскости. Каждый пронумерованный квадрат представляет 256 кодовых точек.

Первая плоскость, плоскость 0 , Basic Multilingual Plane ( BMP ), содержит символы почти всех современных языков, а также большое количество символов . Основной целью BMP является поддержка унификации предшествующих наборов символов, а также символов для письма . Большинство назначенных кодовых точек в BMP используются для кодирования символов китайского, японского и корейского языков ( CJK ).

Коды High Surrogate ( U+D800–U+DBFF ) и Low Surrogate ( U+DC00–U+DFFF ) зарезервированы для кодирования символов, отличных от BMP, в UTF-16 с использованием пары 16- битных кодов: один High Surrogate. и один низкий суррогатный материнский капитал. Одному суррогатному коду никогда не будет присвоен символ.

65 520 из 65 536 кодовых точек в этой плоскости были выделены блоку Unicode , оставив только 16 кодовых точек в одном нераспределенном диапазоне (2FE0..2FEF).

Начиная с Unicode 15.1 , BMP состоит из следующих 164 блоков:

Дополнительный многоязычный самолет

Карта дополнительной многоязычной плоскости. Каждый пронумерованный квадрат представляет 256 кодовых точек.

Уровень 1 , дополнительный многоязычный уровень ( SMP ), содержит исторические шрифты (кроме идеографических CJK), а также символы и обозначения, используемые в определенных полях. Сценарии включают линейное письмо B , египетские иероглифы и клинопись . Он также включает английские реформистские орфографии, такие как Шавиан и Дезерет , и некоторые современные сценарии, такие как Осейдж , Варанг Сити , Адлам , Ванчо и Тото . Символы и обозначения включают исторические и современные нотные обозначения ; математическая буквенно-цифровая обработка ; стенографии; эмодзи и другие наборы пиктограмм; и игровые символы для игральных карт , маджонга и домино .

Начиная с Unicode 15.1 , SMP состоит из следующего 151 блока:

Дополнительная идеографическая плоскость

Карта дополнительной идеографической плоскости. Каждый пронумерованный квадрат представляет 256 кодовых точек.

Плоскость 2 , дополнительная идеографическая плоскость ( SIP ), используется для идеографов CJK, в основном унифицированных идеографов CJK , которые не были включены в более ранние стандарты кодирования символов.

Начиная с Unicode 15.1 , SIP состоит из следующих семи блоков:

Третичный идеографический план

Карта третичного идеографического плана. Каждый пронумерованный квадрат представляет 256 кодовых точек.

Плоскость 3 — это третичная идеографическая плоскость (TIP). Расширение CJK Unified Ideographs Extension G было добавлено в TIP в Unicode 13.0, выпущенном в марте 2020 года. [5] Оно также предварительно выделено для сценариев Oracle Bone и Small Seal Script . [6]

Начиная с Unicode 15.1 , TIP состоит из следующих двух блоков:

Неназначенные самолеты

Плоскости с 4 по 13 (плоскости с 4 по D в шестнадцатеричном формате ): символы с плоскостями с 4 по 13 еще не назначены или не предложены для назначения.

Дополнительный самолет специального назначения

Карта дополнительного самолета специального назначения. Каждый пронумерованный квадрат представляет 256 кодовых точек.

Плоскость 14 ( E в шестнадцатеричном формате) обозначается как дополнительная плоскость специального назначения ( SSP ). Начиная с Unicode 15.1, он состоит из следующих двух блоков :

Самолеты для частного использования

Каждая из двух плоскостей 15 и 16 (плоскости F и 10 в шестнадцатеричном формате) содержит « Область частного использования ». Они содержат блоки с именами Дополнительная зона частного использования-A ( PUA-A ) и -B ( PUA-B ). Области частного использования доступны для использования сторонами, не входящими в ISO и Unicode (частная кодировка символов).

Рекомендации

  1. ^ «Глоссарий». www.unicode.org . Проверено 27 сентября 2021 г.
  2. ^ См. Таблицу 3.5 «Распределение битов UTF-16» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf.
  3. ^ См. Таблицу 3.6 «Распределение битов UTF-8» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf.
  4. ^ «Дорожные карты для Unicode». www.unicode.org . Проверено 27 сентября 2021 г.
  5. ^ «Анонс стандарта Unicode, версия 13.0» .
  6. ^ «Предлагаемые новые персонажи: Трубопровод» . www.unicode.org .