Универсальный набор кодированных символов

Универсальный кодированный набор символов ( UCS , Unicode ) — стандартный набор символов , определенный международным стандартом ISO / IEC 10646 «Информационные технологии — Универсальный кодированный набор символов (UCS)» (плюс поправки к этому стандарту), который является основой многих кодировок символов , совершенствуясь по мере добавления символов из ранее не представленных систем набора текста.

UCS имеет более 1,1 миллиона возможных кодовых точек, доступных для использования/распределения, но только первые 65 536, которые являются базовой многоязыковой плоскостью (BMP), вошли в общее использование до 2000 года. Эта ситуация начала меняться, когда в 2006 году Китайская Народная Республика (КНР) постановила, что все программное обеспечение, продаваемое в ее юрисдикции, должно поддерживать GB 18030. Это потребовало, чтобы программное обеспечение, предназначенное для продажи в КНР, вышло за рамки BMP. ^{[ необходимо разъяснение ]}

Система намеренно оставляет много кодовых точек не назначенными символам, даже в BMP. Это делается для того, чтобы обеспечить будущее расширение или минимизировать конфликты с другими формами кодирования.

В оригинальном издании UCS определен UTF-16 , расширение UCS-2, для представления кодовых точек за пределами BMP. Диапазон кодовых точек в зоне S (специальной) BMP остается неназначенным символам. UCS-2 запрещает использование кодовых значений для этих кодовых точек, но UTF-16 допускает их использование парами. Unicode также принял UTF-16, но в терминологии Unicode элементы зоны high-half становятся «high surrogates», а элементы зоны low-half становятся «low surrogates». ^{[ необходимо разъяснение ]}

Другая кодировка, UTF-32 (ранее называвшаяся UCS-4), использует четыре байта (всего 32 бита) для кодирования одного символа кодового пространства. Таким образом, UTF-32 допускает двоичное представление каждой кодовой точки (по состоянию на 2024 год) в API и программных приложениях.

История

Международная организация по стандартизации (ИСО) приступила к разработке универсального набора символов в 1989 году и опубликовала проект ISO 10646 в 1990 году. Хью МакГрегор Росс был одним из его главных разработчиков.

Эта работа велась независимо от разработки стандарта Unicode , который разрабатывался с 1987 года компаниями Xerox и Apple .

Первоначальный проект ISO 10646 существенно отличался от действующего стандарта. Он определял:

128 групп
256 самолетов
256 рядов
256 ячеек,

для видимого общего количества в 2 147 483 648 символов, но на самом деле стандарт мог кодировать только 679 477 248 символов, поскольку политика запрещала байтовые значения кодов управления C0 и C1 (от 0x00 до 0x1F и от 0x80 до 0x9F в шестнадцатеричной системе счисления) в любом из четырех байтов, определяющих группу, плоскость, строку и ячейку. Например, латинская заглавная буква A имела местоположение в группе 0x20, плоскости 0x20, строке 0x20, ячейке 0x41.

Символы этого изначального стандарта ISO/IEC 10646 можно закодировать одним из трех способов:

UCS-4, четыре байта на каждый символ, что обеспечивает простое кодирование всех символов;
UCS-2, два байта на каждый символ, что позволяет кодировать первую плоскость, 0x20, базовую многоязычную плоскость, содержащую первые 36 864 кодовых точек, напрямую, а также другие плоскости и группы, переключаясь на них с помощью управляющих последовательностей ISO/IEC 2022 ;
UTF-1 , который кодирует все символы в последовательности байтов различной длины (от 1 до 5 байтов, каждый из которых не содержит управляющих кодов).

Таким образом, в 1990 году существовало две инициативы по созданию универсального набора символов: Unicode с 16 битами на каждый символ (65 536 возможных символов) и ISO/IEC 10646. Компании-разработчики программного обеспечения отказались принять требования стандарта ISO по сложности и размеру и смогли убедить ряд национальных органов ISO проголосовать против него. ^{[ необходима цитата ]} Чиновники ISO поняли, что они не могут продолжать поддерживать стандарт в его текущем состоянии, и договорились об унификации своего стандарта с Unicode. Произошло два изменения: снятие ограничения на символы (запрет значений управляющего кода), что открыло кодовые точки для распределения; и синхронизация репертуара Базовой многоязычной плоскости с репертуаром Unicode.

Между тем, с течением времени ситуация в самом стандарте Unicode изменилась: 65 536 символов стало недостаточно, и стандарт с версии 2.0 и далее поддерживает кодирование 1 112 064 кодовых точек из 17 плоскостей с помощью суррогатного механизма UTF-16 . По этой причине ISO/IEC 10646 был ограничен содержанием столько символов, сколько могло быть закодировано UTF-16 и не более, то есть чуть более миллиона символов вместо более 679 миллионов. Кодировка UCS-4 ISO/IEC 10646 была включена в стандарт Unicode с ограничением диапазона UTF-16 и под названием UTF-32 , хотя она почти не используется вне внутренних данных программ.

Роб Пайк и Кен Томпсон , разработчики операционной системы Plan 9 , разработали новую, быструю и хорошо продуманную кодировку смешанной ширины, которая также была обратно совместима с 7-битной ASCII , которая стала называться UTF-8 [ ^1] и в настоящее время является самой популярной кодировкой UCS.

Отличия от Unicode

ISO/IEC 10646 и Unicode имеют идентичный репертуар и номера — одни и те же символы с одинаковыми номерами существуют в обоих стандартах, хотя Unicode выпускает новые версии и добавляет новые символы чаще. Unicode имеет правила и спецификации, выходящие за рамки ISO/IEC 10646. ISO/IEC 10646 — это простая таблица символов, расширение предыдущих стандартов, таких как ISO/IEC 8859. Напротив, Unicode добавляет правила для сортировки , нормализации форм и двунаправленного алгоритма для сценариев справа налево, таких как арабский и иврит. Для взаимодействия между платформами, особенно если используются двунаправленные сценарии, недостаточно поддерживать ISO/IEC 10646; необходимо реализовать Unicode.

Для поддержки этих правил и алгоритмов Unicode добавляет множество свойств к каждому символу в наборе, например, свойства, определяющие двунаправленный класс символа по умолчанию, и свойства, определяющие, как символ сочетается с другими символами. Если символ представляет числовое значение, например, европейское число '8' или вульгарную дробь '¼', это числовое значение также добавляется как свойство символа. Unicode предполагает, что эти свойства будут поддерживать совместимую обработку текста со смесью языков.

Некоторые приложения поддерживают символы ISO/IEC 10646, но не полностью поддерживают Unicode. Одно из таких приложений, Xterm , может правильно отображать все символы ISO/IEC 10646, которые имеют сопоставление символов и глифов один к одному ^{[ необходимо разъяснение ]} и однонаправленность. Оно может обрабатывать некоторые комбинированные знаки простыми методами перечеркивания, но не может отображать иврит (двунаправленный), деванагари (один символ ко многим глифам) или арабский язык (обе функции). Большинство приложений GUI используют стандартные процедуры рисования текста ОС, которые обрабатывают такие скрипты, хотя сами приложения по-прежнему не всегда обрабатывают их правильно.

Ссылка на универсальный набор кодированных символов

ISO/IEC 10646 , общая, неформальная ссылка на семейство стандартов ISO/IEC 10646, приемлема в большинстве текстов. И хотя это отдельный стандарт, термин Unicode используется так же часто, неформально, при обсуждении UCS. Однако любые нормативные ссылки на UCS как на публикацию должны содержать год издания в форме ISO/IEC 10646:{year} , например: ISO/IEC 10646:2014 .

Связь с Unicode

С 1991 года Консорциум Unicode и ISO / IEC совместно разработали Стандарт Unicode («Unicode») и ISO/IEC 10646. Репертуар, имена символов и кодовые точки Unicode версии 2.0 в точности соответствуют таковым в ISO/IEC 10646-1:1993 с его первыми семью опубликованными поправками. После публикации Unicode 3.0 в феврале 2000 года соответствующие новые и обновленные символы вошли в UCS через ISO/IEC 10646-1:2000. В 2003 году части 1 и 2 ISO/IEC 10646 были объединены в одну часть, которая с тех пор имела ряд поправок, добавляющих символы в стандарт примерно синхронно со стандартом Unicode.

ISO/IEC 10646-1:1993 = Юникод 1.1
ISO/IEC 10646-1:1993 плюс поправки 5–7 = Unicode 2.0
ISO/IEC 10646-1:1993 плюс поправки 5–7 = Unicode 2.1, за исключением знака евро и символа замены объекта , которые включены в поправку 18
ISO/IEC 10646-1:2000 = Юникод 3.0
ISO/IEC 10646-1:2000 и ISO/IEC 10646-2:2001 = Юникод 3.1
ISO/IEC 10646-1:2000 плюс Поправка 1 и ISO/IEC 10646-2:2001 = Unicode 3.2
ISO/IEC 10646:2003 = Юникод 4.0
ISO/IEC 10646:2003 плюс Поправка 1 = Unicode 4.1
ISO/IEC 10646:2003 плюс поправки 1–2 = Unicode 5.0, за исключением букв деванагари GGA, JJA, DDDA и BBA, которые включены в поправку 3
ISO/IEC 10646:2003 плюс поправки 1–4 = Unicode 5.1
ISO/IEC 10646:2003 плюс поправки 1–6 = Unicode 5.2
ISO/IEC 10646:2003 плюс поправки 1–8 = ISO/IEC 10646:2011 = Unicode 6.0, за исключением знака индийской рупии
ISO/IEC 10646:2012 = Юникод 6.1
ISO/IEC 10646:2012 = Unicode 6.2, за исключением знака турецкой лиры , который включен в Поправку 1
ISO/IEC 10646:2012 = Unicode 6.3 , за исключением знака турецкой лиры, который включен в Поправку 1, и пяти двунаправленных управляющих символов (арабский буквенный знак, изолят слева направо, изолят справа налево, первый сильный изолят, изолят направления Pop), которые включены в Поправку 2
ISO/IEC 10646:2012 плюс поправки 1 и 2 = Unicode 7.0 без знака рубля
ISO/IEC 10646:2014 плюс поправка 1 = Unicode 8.0, за исключением знака лари , девяти унифицированных идеограмм CJK и 41 символа эмодзи
ISO/IEC 10646:2014 плюс поправки 1 и 2 = Unicode 9.0, за исключением Adlam , Newa , японских телевизионных символов и 74 эмодзи и символов
ISO/IEC 10646:2017 = Unicode 10.0, за исключением 285 символов Hentaigana , 3 символов Zanabazar Square и 56 символов эмодзи
ISO/IEC 10646:2017 плюс поправка 1 = Unicode 11.0, за исключением 46 заглавных букв грузинского алфавита мтаврули , 5 унифицированных идеограмм CJK и 66 символов эмодзи
ISO/IEC 10646:2017 плюс поправки 1 и 2 = Unicode 12.0 без 62 дополнительных символов
ISO/IEC 10646:2020 = Юникод 13.0
ISO/IEC 10646:2020 плюс поправки 1 = Unicode 15.0
ISO/IEC 10646:2020 плюс поправки 1 и 2 = Unicode 16.0

Смотрите также

Сопутствующие стандарты:

- ISO/IEC 646 (позиции от 0 до 127 такие же, как в ISO/IEC 10646 и Unicode, а числа 646 и 10646 аналогичны)
- ISO/IEC 2022 Информационные технологии — Структура символьного кода и методы расширения
- Коды управления ISO/IEC 6429 C0 и C1
- ISO/IEC 8859 (позиции с 0 по 255 UCS и Unicode такие же, как в ISO/IEC 8859-1, псевдоним ISO Latin 1)
- ISO/IEC 14651 Информационные технологии – Международный порядок и сравнение строк
- Коды ISO 15924 для представления названий письменностей (каждый символ связан с одной из этих письменностей)
Сравнение кодировок Unicode
Список ссылок на сущности символов XML и HTML
Список шрифтов Unicode
Универсальный набор символов
ИСО/МЭК СТК 1/ПК 2

Ссылки

↑ Пайк, Роб (2003-04-03). "История UTF-8". Архивировано из оригинала 2016-05-23.

Внешние ссылки

Общедоступные стандарты (ISO) – включает копию ISO/IEC 10646:2020/Amd. 1:2023(E)
ISO/IEC JTC1/SC2/WG2, рабочая группа, отвечающая за ISO 10646
Часто задаваемые вопросы по UTF-8 и Unicode
Бесплатные шрифты, редакторы и документация SIL
Простой, но приятный пример UTF-8 для проверки возможностей вашего веб-браузера и шрифтов.
Проблемы с набором символов для ADA 9x с октября 1989 года, некоторые подробности об оригинальном, до слияния DIS ISO-10646