stringtranslate.com

Кодовая точка

Кодовая точка , кодовая точка или позиция кода — это уникальная позиция в квантованном n-мерном пространстве, которой присвоено семантическое значение.

Другими словами, кодовая точка — это определенная позиция в таблице, которой присвоено значение. Таблица имеет дискретные позиции (1, 2, 3, 4, но не дроби) и может быть одномерной (столбец), двухмерной (как ячейки в электронной таблице), трехмерной (листы в рабочей книге) и т. д. , в любом количестве измерений.

Кодовые точки используются во множестве формальных стандартов обработки информации и телекоммуникаций. [1] [2] Например, Рекомендация МСЭ-Т T.35 [3] содержит набор кодов стран для телекоммуникационного оборудования (первоначально факсимильных аппаратов), которые позволяют оборудованию указывать страну его производства или эксплуатации. В T.35 Аргентина представлена ​​кодовой точкой 0x07, Канада — 0x20, Гамбия — 0x41 и т. д.

В кодировке символов

Кодовые точки обычно используются при кодировании символов , где кодовая точка — это числовое значение, которое соответствует определенному символу . При кодировании символов кодовые точки обычно представляют одну графему — обычно букву, цифру, знак препинания или пробел — но иногда представляют собой символы, управляющие символы или форматирование. [4] Набор всех возможных кодовых точек в пределах данной кодировки/набора символов составляет кодовое пространство этой кодировки . [5] [6]

Например, схема кодирования символов ASCII содержит 128 кодовых точек в диапазоне от 0 до 7F hex , расширенная ASCII содержит 256 кодовых точек в диапазоне от 0 до FF hex , а Unicode содержит 1 114 112 кодовых точек в диапазоне от 0 до 10FFFF hex . . Кодовое пространство Юникода разделено на семнадцать плоскостей (основная многоязычная плоскость и 16 дополнительных плоскостей), каждая из которых содержит 65 536 (= 2 16 ) кодовых точек. Таким образом, общий размер кодового пространства Юникода составляет 17 × 65 536 = 1 114 112.

В Юникоде

В Unicode определенная последовательность битов называется кодовой единицей — для кодировки UCS-4 любая кодовая точка кодируется как 4- байтовые ( октетные ) двоичные числа , тогда как в кодировке UTF-8 различные кодовые точки кодируются как последовательности длиной от одного до четырех байтов, образующие самосинхронизирующийся код . Подробности см. в сравнении кодировок Unicode . Кодовые точки обычно присваиваются абстрактным символам . Абстрактный символ — это не графический глиф , а единица текстовых данных. Однако кодовые точки также можно оставить зарезервированными для будущего назначения (большая часть кодового пространства Юникода не назначена) или предоставить другие назначенные функции. [ нужна цитата ]

Различие между кодовой точкой и соответствующим абстрактным символом не выражено в Юникоде, но очевидно для многих других схем кодирования, где для одного кодового пространства может существовать множество кодовых страниц . [ нужна цитата ]

История

Концепция кодовой точки восходит к самым ранним стандартам цифровой обработки информации и цифровых телекоммуникаций.

В Unicode кодовые точки являются частью решения Unicode сложной проблемы, с которой столкнулись разработчики кодировок символов в 1980-х годах. [7] Если бы они добавили больше битов на символ для размещения более крупных наборов символов, это проектное решение также представляло бы собой неприемлемую трату тогда скудных вычислительных ресурсов для пользователей латинского алфавита (которые в то время составляли подавляющее большинство пользователей компьютеров), поскольку для таких пользователей эти дополнительные биты всегда будут обнулены. [8] Кодовая точка позволяет избежать этой проблемы, разрушая старую идею прямого однозначного соответствия между символами и конкретными последовательностями битов.

Смотрите также

Рекомендации

  1. ^ ETSI TS 101 773 (раздел 4), https://www.etsi.org/deliver/etsi_ts/101700_101799/101773/01.02.01_60/ts_101773v010201p.pdf
  2. ^ RFC4190 (раздел 1), https://datatracker.ietf.org/doc/html/rfc4190.
  3. ^ https://www.itu.int/rec/T-REC-T.35-200002-I/en.
  4. ^ «Стандарт Unicode® версии 11.0 – Основная спецификация» (PDF) . Консорциум Юникод . 30 июня 2018 г. с. 23. Архивировано из оригинала (PDF) 19 сентября 2018 года . Проверено 25 декабря 2018 г. Формат: Невидимый, но влияет на соседних символов; включает разделители строк и абзацев
  5. ^ Юникод. «Глоссарий терминов Unicode». unicode.org . Проверено 20 марта 2023 г.
  6. ^ «Стандарт Unicode® версии 11.0 – Основная спецификация» (PDF) . Консорциум Юникод . 30 июня 2018 г. с. 22. Архивировано из оригинала (PDF) 19 сентября 2018 года . Проверено 25 декабря 2018 г. На компьютере абстрактные символы внутренне кодируются как числа. Чтобы создать полную кодировку символов, необходимо определить список всех символов, подлежащих кодированию, и установить систематические правила представления символов числами. Диапазон целых чисел, используемых для кодирования абстрактных символов, называется кодовым пространством. Определенное целое число в этом наборе называется кодовой точкой. Когда абстрактный символ отображается или назначается определенной кодовой точке в кодовом пространстве, он тогда называется кодированным символом.
  7. Констебль, Питер (13 июня 2001 г.). «Понимание Unicode™ – I». NRSI: Компьютеры и системы письма . Архивировано из оригинала (html) 16 сентября 2010 года . Проверено 25 декабря 2018 г. К началу 1980-х годов индустрия программного обеспечения начала осознавать необходимость решения проблем, связанных с использованием нескольких стандартов кодирования символов. Некоторые особенно новаторские работы были начаты в Xerox. Рабочая станция Xerox Star использовала многобайтовую кодировку, которая позволяла ей поддерживать один набор символов, потенциально содержащий миллионы символов.
  8. ^ Марк Дэвис; Кен Уистлер (23 марта 2001 г.). «Технический стандарт Unicode № 10, АЛГОРИТМ СОСТАВЛЕНИЯ ЮНИКОДА». Консорциум Юникод . Архивировано из оригинала (html) 25 августа 2001 года . Проверено 25 декабря 2018 г. 6.2 Большие значения веса

Внешние ссылки