Кодовая точка

Кодовая точка , кодовая точка или позиция кода — это уникальная позиция в квантованном n-мерном пространстве, которой присвоено семантическое значение.

Другими словами, кодовая точка — это определенная позиция в таблице, которой присвоено значение. Таблица имеет дискретные позиции (1, 2, 3, 4, но не дроби) и может быть одномерной (столбец), двухмерной (как ячейки в электронной таблице), трехмерной (листы в рабочей книге) и т. д. , в любом количестве измерений.

Кодовые точки используются во множестве формальных стандартов обработки информации и телекоммуникаций. ^[1]^[2] Например, Рекомендация МСЭ-Т T.35 ^[3] содержит набор кодов стран для телекоммуникационного оборудования (первоначально факсимильных аппаратов), которые позволяют оборудованию указывать страну его производства или эксплуатации. В T.35 Аргентина представлена кодовой точкой 0x07, Канада — 0x20, Гамбия — 0x41 и т. д.

В кодировке символов

Кодовые точки обычно используются при кодировании символов , где кодовая точка — это числовое значение, которое соответствует определенному символу . При кодировании символов кодовые точки обычно представляют одну графему — обычно букву, цифру, знак препинания или пробел — но иногда представляют собой символы, управляющие символы или форматирование. ^[4] Набор всех возможных кодовых точек в пределах данной кодировки/набора символов составляет кодовое пространство этой кодировки . ^[5]^[6]

Например, схема кодирования символов ASCII содержит 128 кодовых точек в диапазоне от 0 _до 7F _hex , расширенная ASCII содержит 256 кодовых точек в диапазоне от 0 _до FF _hex , а Unicode содержит 1 114 112 кодовых точек в диапазоне от 0 _до 10FFFF _hex . . Кодовое пространство Юникода разделено на семнадцать плоскостей (основная многоязычная плоскость и 16 дополнительных плоскостей), каждая из которых содержит 65 536 (= 2 ¹⁶ ) кодовых точек. Таким образом, общий размер кодового пространства Юникода составляет 17 × 65 536 = 1 114 112.

В Юникоде

В Unicode определенная последовательность битов называется кодовой единицей — для кодировки UCS-4 любая кодовая точка кодируется как 4- байтовые ( октетные ) двоичные числа , тогда как в кодировке UTF-8 различные кодовые точки кодируются как последовательности длиной от одного до четырех байтов, образующие самосинхронизирующийся код . Подробности см. в сравнении кодировок Unicode . Кодовые точки обычно присваиваются абстрактным символам . Абстрактный символ — это не графический глиф , а единица текстовых данных. Однако кодовые точки также можно оставить зарезервированными для будущего назначения (большая часть кодового пространства Юникода не назначена) или предоставить другие назначенные функции. ^{[ нужна цитата ]}

Различие между кодовой точкой и соответствующим абстрактным символом не выражено в Юникоде, но очевидно для многих других схем кодирования, где для одного кодового пространства может существовать множество кодовых страниц . ^{[ нужна цитата ]}

История

Концепция кодовой точки восходит к самым ранним стандартам цифровой обработки информации и цифровых телекоммуникаций.

В Unicode кодовые точки являются частью решения Unicode сложной проблемы, с которой столкнулись разработчики кодировок символов в 1980-х годах. ^[7] Если бы они добавили больше битов на символ для размещения более крупных наборов символов, это проектное решение также представляло бы собой неприемлемую трату тогда скудных вычислительных ресурсов для пользователей латинского алфавита (которые в то время составляли подавляющее большинство пользователей компьютеров), поскольку для таких пользователей эти дополнительные биты всегда будут обнулены. ^[8] Кодовая точка позволяет избежать этой проблемы, разрушая старую идею прямого однозначного соответствия между символами и конкретными последовательностями битов.

Смотрите также

Внешние ссылки