Кодовая точка , кодовая точка или позиция кода — это определенная позиция в таблице , где позиции присвоено значение. Таблица может быть одномерной (столбец), двухмерной (как ячейки в электронной таблице), трехмерной (листы в рабочей книге) и т. д. в любом количестве измерений.
Технически, кодовая точка — это уникальная позиция в квантованном n-мерном пространстве, где позиции присвоено семантическое значение. Таблица имеет дискретные (целые) и положительные позиции (1, 2, 3, 4, но не дроби).
Кодовые точки используются во множестве официальных стандартов обработки информации и телекоммуникаций. [1] [2] Например, Рекомендация МСЭ-Т T.35 [3] содержит набор кодов стран для телекоммуникационного оборудования (первоначально факсимильные аппараты), которые позволяют оборудованию указывать страну его производства или эксплуатации. В T.35 Аргентина представлена кодовой точкой 0x07, Канада — 0x20, Гамбия — 0x41 и т. д.
Кодовые точки обычно используются в кодировке символов , где кодовая точка — это числовое значение, которое сопоставляется с определенным символом . В кодировке символов кодовые точки обычно представляют собой одну графему — обычно букву, цифру, знак препинания или пробел, — но иногда представляют собой символы, управляющие символы или форматирование. [4] Набор всех возможных кодовых точек в пределах заданной кодировки/набора символов составляет кодовое пространство этой кодировки . [5] [6]
Например, схема кодирования символов ASCII включает 128 кодовых точек в диапазоне от 0 hex до 7F hex , Extended ASCII включает 256 кодовых точек в диапазоне от 0 hex до FF hex , а Unicode включает 1 114 112 кодовых точек в диапазоне от 0 hex до 10FFFF hex . Кодовое пространство Unicode разделено на семнадцать плоскостей (основная многоязычная плоскость и 16 дополнительных плоскостей), каждая из которых содержит 65 536 (= 2 16 ) кодовых точек. Таким образом, общий размер кодового пространства Unicode составляет 17 × 65 536 = 1 114 112.
Для Unicode конкретная последовательность битов называется кодовой единицей — для кодировки UCS-4 любая кодовая точка кодируется как 4- байтовые ( октетные ) двоичные числа , в то время как в кодировке UTF-8 различные кодовые точки кодируются как последовательности длиной от одного до четырех байтов, образуя самосинхронизирующийся код . Подробности см. в сравнении кодировок Unicode . Кодовые точки обычно назначаются абстрактным символам . Абстрактный символ — это не графический глиф, а единица текстовых данных. Однако кодовые точки также могут быть зарезервированы для будущего назначения (большая часть кодового пространства Unicode не назначена) или им могут быть назначены другие функции. [ необходима цитата ]
Различие между кодовой точкой и соответствующим абстрактным символом не выражено в Unicode, но очевидно для многих других схем кодирования, где для одного кодового пространства может существовать несколько кодовых страниц . [ необходима ссылка ]
Концепция кодовой точки восходит к самым ранним стандартам цифровой обработки информации и цифровой телекоммуникации.
В Unicode кодовые точки являются частью решения Unicode для сложной головоломки, с которой столкнулись разработчики кодировок символов в 1980-х годах. [7] Если бы они добавили больше бит на символ, чтобы разместить более крупные наборы символов, это решение также стало бы неприемлемой тратой скудных на тот момент вычислительных ресурсов для пользователей латинского алфавита (которые составляли подавляющее большинство пользователей компьютеров в то время), поскольку эти дополнительные биты всегда были бы обнулены для таких пользователей. [8] Кодовая точка избегает этой проблемы, разрушая старую идею прямого соответствия один к одному между символами и определенными последовательностями бит.
: Невидимый, но влияет на соседние символы; включает разделители строк/абзацев
На компьютере абстрактные символы кодируются внутренне как числа. Чтобы создать полную кодировку символов, необходимо определить список всех символов, которые должны быть закодированы, и установить систематические правила того, как числа представляют символы. Диапазон целых чисел, используемых для кодирования абстрактных символов, называется кодовым пространством. Конкретное целое число в этом наборе называется кодовой точкой. Когда абстрактный символ сопоставляется или назначается определенной кодовой точке в кодовом пространстве, он затем называется закодированным символом.
К началу 1980-х годов индустрия программного обеспечения начала осознавать необходимость решения проблем, связанных с использованием нескольких стандартов кодировки символов. Некоторые особенно инновационные работы были начаты в Xerox. Рабочая станция Xerox Star использовала многобайтовую кодировку, которая позволяла ей поддерживать один набор символов с потенциальными миллионами символов.
Большие весовые значения