Кодировка символов

Перфолента со словом «Wikipedia», закодированным в ASCII . Наличие и отсутствие отверстия представляет 1 и 0 соответственно; например, «W» кодируется как «1010111».

Кодирование символов — это процесс присвоения чисел графическим символам , особенно письменным символам человеческого языка , что позволяет хранить , передавать и преобразовывать их с помощью цифровых компьютеров . ^[1] Числовые значения, составляющие кодировку символов, называются « кодовыми точками » и в совокупности составляют «кодовое пространство», « кодовую страницу » или « карту символов ».

Ранние коды символов, связанные с оптическим или электрическим телеграфом, могли представлять только подмножество символов, используемых в письменных языках , иногда ограничиваясь только заглавными буквами , цифрами и некоторыми знаками препинания . Низкая стоимость цифрового представления данных в современных компьютерных системах позволяет использовать более сложные коды символов (такие как Unicode ), которые представляют большинство символов, используемых во многих письменных языках. Кодирование символов с использованием принятых на международном уровне стандартов позволяет осуществлять всемирный обмен текстами в электронной форме.

Наиболее используемая кодировка символов в Интернете — UTF-8 , которая используется на 98,2% обследованных веб-сайтов по состоянию на май 2024 года. ^[2] В прикладных программах и задачах операционной системы как UTF-8, так и UTF-16 являются популярными вариантами. ^[3]^[4]

История

История кодов символов иллюстрирует развивающуюся потребность в машинной символьной информации на основе символов на расстоянии, используя некогда новые электрические средства. Самые ранние коды были основаны на ручных и рукописных системах кодирования и шифрования, таких как шифр Бэкона , шрифт Брайля , международные морские сигнальные флаги и 4-значное кодирование китайских иероглифов для китайского телеграфного кода ( Ганс Шьеллеруп , 1869). С принятием электрических и электромеханических технологий эти самые ранние коды были адаптированы к новым возможностям и ограничениям ранних машин. Самый ранний известный электрически передаваемый код символов, азбука Морзе , представленная в 1840-х годах, использовала систему из четырех «символов» (короткий сигнал, длинный сигнал, короткий пробел, длинный пробел) для генерации кодов переменной длины. Хотя некоторое коммерческое использование азбуки Морзе осуществлялось с помощью машин, она часто использовалась как ручной код, генерируемый вручную на телеграфном ключе и расшифровываемый на слух, и сохраняется в любительском радио и авиационном использовании. Большинство кодов имеют фиксированную длину для каждого символа или представляют собой последовательности кодов фиксированной длины переменной длины (например, Unicode ). ^[5]

Распространенными примерами систем кодирования символов являются азбука Морзе, код Бодо , Американский стандартный код для обмена информацией (ASCII) и Unicode. Unicode, четко определенная и расширяемая система кодирования, вытеснила большинство более ранних кодировок символов, но путь развития кода до настоящего времени довольно хорошо известен.

Код Бодо, пятибитное кодирование , был создан Эмилем Бодо в 1870 году, запатентован в 1874 году, изменен Дональдом Мюрреем в 1901 году и стандартизирован CCITT как Международный телеграфный алфавит № 2 (ITA2) в 1930 году. Название Бодо ошибочно применялось к ITA2 и его многочисленным вариантам. ITA2 страдал от множества недостатков и часто улучшался многими производителями оборудования, иногда создавая проблемы совместимости. В 1959 году армия США определила свой код Fieldata , шести- или семибитный код, введенный Корпусом связи армии США. Хотя Fieldata решал многие из современных на тот момент проблем (например, коды букв и цифр, организованные для машинной сортировки), он не достиг своих целей и был недолговечным. В 1963 году комитетом ASCII (в который входил по крайней мере один член комитета Fieldata, В. Ф. Лейбберт) был выпущен первый код ASCII (X3.4-1963), который устранил большинство недостатков Fieldata, используя более простой код. Многие изменения были незначительными, например, наборы символов, которые можно сопоставлять в определенных числовых диапазонах. ASCII63 имел успех, был широко принят промышленностью, и с последующим выпуском кода ASCII 1967 года (который добавил строчные буквы и исправил некоторые проблемы с «контрольным кодом») ASCII67 был принят довольно широко. Американо-центричная природа ASCII67 была в некоторой степени учтена в европейском стандарте ECMA-6 . ^[6]

Перфокарта Холлерита на 80 столбцов с набором символов EBCDIC

Герман Холлерит изобрел кодирование данных перфокарт в конце 19 века для анализа данных переписи населения. Первоначально каждая позиция отверстия представляла отдельный элемент данных, но позже числовая информация кодировалась путем нумерации нижних строк от 0 до 9, с перфорацией в столбце, представляющей его номер строки. Позже алфавитные данные кодировались путем разрешения более одного перфорации на столбец. Электромеханические табуляторные машины представляли дату внутренне с помощью синхронизации импульсов относительно движения карт через машину. Когда IBM перешла на электронную обработку, начиная с IBM 603 Electronic Multiplier, она использовала различные схемы двоичного кодирования, которые были привязаны к коду перфокарты.

IBM использовала несколько схем кодирования символов в двоично-десятичном коде ( BCD ), начиная с 1953 года в своих компьютерах 702 ^[7] и 704 , а также в более поздних сериях 7000 и 1400 , а также в связанных с ними периферийных устройствах. Поскольку код перфокарт, который тогда использовался, допускал только цифры, заглавные английские буквы и несколько специальных символов, шести бит было достаточно. Эти кодировки BCD расширили существующую простую четырехбитную числовую кодировку, включив в нее алфавитные и специальные символы, легко сопоставив их с кодировкой перфокарт, которая уже широко использовалась. Коды IBM использовались в основном с оборудованием IBM; другие поставщики компьютеров той эпохи имели свои собственные коды символов, часто шестибитные, но обычно имели возможность читать ленты, произведенные на оборудовании IBM. Эти кодировки BCD были предшественниками расширенного двоично-десятичного кода обмена данными IBM (обычно сокращенно EBCDIC), восьмибитной схемы кодирования, разработанной в 1963 году для IBM System/360 и имевшей более широкий набор символов, включая строчные буквы.

Пытаясь разработать универсально взаимозаменяемые кодировки символов, исследователи в 1980-х годах столкнулись с дилеммой, что, с одной стороны, казалось необходимым добавить больше бит для размещения дополнительных символов, но с другой стороны, для пользователей относительно небольшого набора символов латинского алфавита (которые все еще составляли большинство пользователей компьютеров) эти дополнительные биты были колоссальной тратой тогда дефицитных и дорогих вычислительных ресурсов (поскольку они всегда обнулялись для таких пользователей). В 1985 году жесткий диск среднего пользователя персонального компьютера мог хранить всего около 10 мегабайт, и он стоил примерно 250 долларов США на оптовом рынке (и намного дороже, если покупать его отдельно в розницу), ^[8] поэтому в то время было очень важно, чтобы каждый бит был на счету.

Компромиссное решение, которое в конечном итоге было найдено и преобразовано в Unicode ^{[ неопределенно ]} , состояло в том, чтобы сломать предположение (восходящее к телеграфным кодам), что каждый символ всегда должен напрямую соответствовать определенной последовательности бит. Вместо этого символы сначала сопоставлялись с универсальным промежуточным представлением в форме абстрактных чисел, называемых кодовыми точками . Затем кодовые точки представлялись различными способами и с различными значениями по умолчанию для каждого символа (кодовыми единицами) в зависимости от контекста. Чтобы закодировать кодовые точки, превышающие длину кодовой единицы, например, выше 256 для восьмибитных единиц, решение состояло в реализации кодировок переменной длины , где escape-последовательность сигнализировала бы о том, что последующие биты следует анализировать как более высокую кодовую точку.

Терминология

Неформально термины «кодировка символов», «карта символов», «набор символов» и «кодовая страница» часто используются взаимозаменяемо. ^[9] Исторически один и тот же стандарт определял набор символов и то, как они должны были быть закодированы в поток кодовых единиц — обычно с одним символом на кодовую единицу. Однако из-за появления более сложных кодировок символов различие между этими терминами стало важным.

Символ — это минимальная единица текста, имеющая семантическую ценность. [^9]^[10]
Набор символов — это набор элементов, используемых для представления текста. ^[9]^[10] Например, латинский алфавит и греческий алфавит — это оба наборы символов.
Кодированный набор символов — это набор символов, сопоставленный с набором уникальных чисел. ^[10] По историческим причинам его также часто называют кодовой страницей . ^[9]
Репертуар символов — это набор символов, которые могут быть представлены определенным набором кодированных символов. ^[10]^[11] Репертуар может быть закрытым, что означает, что никакие дополнения не допускаются без создания нового стандарта (как в случае с ASCII и большинством серий ISO-8859); или он может быть открытым, допускающим дополнения (как в случае с Unicode и в ограниченной степени с кодовыми страницами Windows ). ^[11]
Кодовая точка — это значение или позиция символа в наборе кодированных символов. ^[10]
Кодовое пространство — это диапазон числовых значений, охватываемый кодированным набором символов. ^[10]^[12]
Кодовая единица — это минимальная комбинация битов, которая может представлять символ в кодировке символов (в терминах компьютерной науки это размер слова кодировки символов). ^[10]^[12] Например, общие кодовые единицы включают 7-бит, 8-бит, 16-бит и 32-бит. В некоторых кодировках некоторые символы кодируются с использованием нескольких кодовых единиц; такая кодировка называется кодировкой переменной ширины .

Кодовые страницы

«Кодовая страница» — историческое название набора кодированных символов.

Первоначально кодовая страница ссылалась на конкретный номер страницы в руководстве по стандартным наборам символов IBM, который определял конкретную кодировку символов. ^[13] Другие поставщики, включая Microsoft , SAP и Oracle Corporation , также опубликовали свои собственные наборы кодовых страниц; наиболее известными наборами кодовых страниц являются « Windows » (на основе Windows-1252) и «IBM»/«DOS» (на основе кодовой страницы 437 ).

Несмотря на то, что в стандарте больше не упоминаются конкретные номера страниц, многие кодировки символов по-прежнему обозначаются номером кодовой страницы; аналогично, термин «кодовая страница» часто по-прежнему используется для обозначения кодировок символов в целом.

Термин «кодовая страница» не используется в Unix или Linux, где предпочтительнее «charmap», обычно в более широком контексте локалей. Архитектура представления символьных данных IBM (CDRA) обозначает сущности с помощью кодированных идентификаторов набора символов ( CCSID ), каждый из которых по-разному называется «charset», «character set», «code page» или «CHARMAP». ^[12]

Кодовые единицы

Размер единицы кода эквивалентен измерению бит для конкретной кодировки:

Кодовая единица в ASCII состоит из 7 бит;
Кодовая единица в UTF-8 , EBCDIC и GB 18030 состоит из 8 бит;
Кодовая единица в UTF-16 состоит из 16 бит;
Кодовая единица в UTF-32 состоит из 32 бит.

Кодовые точки

Кодовая точка представлена последовательностью кодовых единиц. Отображение определяется кодировкой. Таким образом, количество кодовых единиц, необходимых для представления кодовой точки, зависит от кодировки:

UTF-8: кодовые точки сопоставляются с последовательностью из одной, двух, трех или четырех кодовых единиц.
UTF-16: кодовые единицы в два раза длиннее 8-битных кодовых единиц. Поэтому любая кодовая точка со скалярным значением меньше U+10000 кодируется одной кодовой единицей. Кодовые точки со значением U+10000 или выше требуют по две кодовые единицы каждая. Эти пары кодовых единиц имеют уникальный термин в UTF-16: «Unicode surrogate pairs».
UTF-32: 32-битная кодовая единица достаточно велика, чтобы каждая кодовая точка была представлена как одна кодовая единица.
GB 18030: несколько кодовых единиц на кодовую точку являются обычными из-за небольших кодовых единиц. Кодовые точки отображаются в одну, две или четыре кодовые единицы. ^[14]

Персонажи

То, что именно представляет собой символ, различается в зависимости от кодировки символов.

Например, для букв с диакритическими знаками существует два различных подхода, которые можно использовать для их кодирования: они могут быть закодированы либо как один объединенный символ (известный как предкомпозитный символ), либо как отдельные символы, которые объединяются в один глиф . Первый вариант упрощает систему обработки текста, но последний позволяет использовать в тексте любую комбинацию букв/диакритических знаков. Лигатуры создают похожие проблемы.

Как именно обрабатывать варианты глифов — это выбор, который необходимо сделать при построении конкретной кодировки символов. Некоторые системы письма, такие как арабский и иврит, должны учитывать такие вещи, как графемы , которые соединяются по-разному в разных контекстах, но представляют один и тот же семантический символ.

Модель кодировки Unicode

Unicode и его параллельный стандарт, универсальный набор символов ISO/IEC 10646 , вместе составляют единый стандарт кодирования символов. Вместо того, чтобы напрямую отображать символы в байты , Unicode отдельно определяет кодированный набор символов, который отображает символы в уникальные натуральные числа ( кодовые точки ), как эти кодовые точки отображаются в ряд натуральных чисел фиксированного размера (кодовые единицы) и, наконец, как эти единицы кодируются в виде потока октетов (байтов). Целью этого разложения является установление универсального набора символов, которые могут быть закодированы различными способами. Чтобы точно описать эту модель, Unicode использует свой собственный набор терминов для описания своего процесса: ^[12]

Репертуар абстрактных символов (ACR) — это полный набор абстрактных символов, поддерживаемых системой. Unicode имеет открытый репертуар, что означает, что со временем в репертуар будут добавляться новые символы.

Кодированный набор символов (CCS) — это функция , которая сопоставляет символы с кодовыми точками (каждая кодовая точка представляет один символ). Например, в данном репертуаре заглавная буква «A» в латинском алфавите может быть представлена кодовой точкой 65, символ «B» — 66 и т. д. Несколько кодированных наборов символов могут совместно использовать один и тот же репертуар символов; например, кодовые страницы ISO/IEC 8859-1 и IBM 037 и 500 охватывают один и тот же репертуар, но сопоставляют их с разными кодовыми точками.

Форма кодирования символов (CEF) — это отображение кодовых точек в кодовые единицы для облегчения хранения в системе, которая представляет числа как битовые последовательности фиксированной длины (т. е. практически любая компьютерная система). Например, система, которая хранит числовую информацию в 16-битных единицах, может напрямую представлять только кодовые точки от 0 до 65 535 в каждой единице, но более крупные кодовые точки (скажем, от 65 536 до 1,4 миллиона) могут быть представлены с использованием нескольких 16-битных единиц. Это соответствие определяется CEF.

Схема кодирования символов (CES) — это отображение кодовых единиц в последовательность октетов для облегчения хранения в файловой системе на основе октетов или передачи по сети на основе октетов. Простые схемы кодирования символов включают UTF-8 , UTF-16BE , UTF-32BE , UTF-16LE и UTF-32LE ; составные схемы кодирования символов, такие как UTF-16 , UTF-32 и ISO/IEC 2022 , переключаются между несколькими простыми схемами с помощью метки порядка байтов или escape-последовательностей ; схемы сжатия пытаются минимизировать количество байтов, используемых на единицу кода (например, SCSU и BOCU ).

Хотя UTF-32BE и UTF-32LE являются более простыми CES, большинство систем, работающих с Unicode, используют либо UTF-8 , который обратно совместим с ASCII фиксированной длины и отображает кодовые точки Unicode в последовательности октетов переменной длины, либо UTF-16BE , ^{[ требуется ссылка ]} который обратно совместим с UCS-2BE фиксированной длины и отображает кодовые точки Unicode в последовательности 16-битных слов переменной длины. Подробное обсуждение см. в сравнении кодировок Unicode .

Наконец, может быть протокол более высокого уровня , который предоставляет дополнительную информацию для выбора конкретного варианта символа Unicode , особенно там, где есть региональные варианты, которые были «унифицированы» в Unicode как один и тот же символ. Примером является атрибут XML xml:lang.

Модель Unicode использует термин «карта символов» для других систем, которые напрямую назначают последовательность символов последовательности байтов, охватывая все слои CCS, CEF и CES. ^[12]

Кодовые точки Unicode

В Unicode символ может обозначаться как «U+», за которым следует его кодовое значение в шестнадцатеричном формате. Диапазон допустимых кодовых точек (кодовое пространство) для стандарта Unicode составляет от U+0000 до U+10FFFF включительно, разделенное на 17 плоскостей , идентифицируемых числами от 0 до 16. Символы в диапазоне от U+0000 до U+FFFF находятся в плоскости 0, называемой базовой многоязыковой плоскостью (BMP). Эта плоскость содержит наиболее часто используемые символы. Символы в диапазоне от U+10000 до U+10FFFF в других плоскостях называются дополнительными символами .

В следующей таблице приведены примеры значений кодовых точек:

Пример

Рассмотрим строку букв "ab̲c𐐀" — то есть строку, содержащую объединяющий символ Unicode ( U+0332 ̲ COMBINING LOW LINE ), а также дополнительный символ ( U+10400 𐐀 DESERET CAPITAL LETTER LONG I ). Эта строка имеет несколько представлений Unicode, которые логически эквивалентны, но при этом каждое из них подходит для различных наборов обстоятельств или диапазона требований:

Четыре составных персонажа :
a, b̲, c,𐐀
Пять графем :
a, b, _, c,𐐀
Пять кодовых точек Unicode :
U+0061, U+0062, U+0332, U+0063,U+10400
Пять кодовых единиц UTF-32 (32-битные целые значения):
0x00000061, 0x00000062, 0x00000332, 0x00000063,0x00010400
Шесть кодовых единиц UTF-16 (16-битные целые числа)
0x0061, 0x0062, 0x0332, 0x0063, 0xD801,0xDC00
Девять кодовых единиц UTF-8 (8-битные значения или байты )
0x61, 0x62, 0xCC, 0xB2, 0x63, 0xF0, 0x90, 0x90,0x80

Обратите внимание, что 𐐀 представлен одним 32-битным значением (UTF-32), двумя 16-битными значениями (UTF-16) или четырьмя 8-битными значениями (UTF-8). Хотя каждая из этих форм использует одинаковое общее количество бит (32) для представления глифа, неочевидно, как связаны фактические числовые значения байтов.

Транскодирование

В результате использования множества методов кодирования символов (и необходимости обратной совместимости с архивированными данными) было разработано множество компьютерных программ для перевода данных между схемами кодирования символов, процесс, известный как транскодирование . Некоторые из них приведены ниже.

Кроссплатформенность :

Веб-браузеры – большинство современных веб-браузеров поддерживают автоматическое определение кодировки символов . Например, в Firefox 3 см. подменю Вид/Кодировка символов.
iconv – программа и стандартизированный API для конвертации кодировок
luit – программа, преобразующая кодировку ввода и вывода в программы, работающие в интерактивном режиме
Международные компоненты для Unicode – набор библиотек C и Java для выполнения преобразования наборов символов. uconv можно использовать из ICU4C.

Окна :

Кодирование.Конвертация – .NET API ^[15]
MultiByteToWideChar/WideCharToMultiByte – для преобразования из ANSI в Unicode и из Unicode в ANSI ^[16]^[17]

Распространенные кодировки символов

ИСО 646
- ASCII
EBCDIC
ИСО 8859 :
- ISO 8859-1 Западная Европа
- ISO 8859-2 Западная и Центральная Европа
- ISO 8859-3 Западная Европа и Южная Европа (турецкий, мальтийский плюс эсперанто)
- ISO 8859-4 Западная Европа и страны Балтии (Литва, Эстония, Латвия и Лапландия)
- Кириллический алфавит ISO 8859-5
- ISO 8859-6 арабский
- ИСО 8859-7 Греческий
- ISO 8859-8 Иврит
- ISO 8859-9 Западная Европа с измененным турецким набором символов
- ISO 8859-10 Западная Европа с рационализированным набором символов для скандинавских языков, включая полный исландский набор
- ISO 8859-11 тайский
- ISO 8859-13 Балтийские языки плюс польский
- ISO 8859-14 Кельтские языки (ирландский, гэльский, шотландский, валлийский)
- ISO 8859-15 Добавлен знак евро и другие рационализации в ISO 8859-1
- ISO 8859-16 Языки Центральной, Восточной и Южной Европы (албанский, боснийский, хорватский, венгерский, польский, румынский, сербский и словенский, а также французский, немецкий, итальянский и ирландский гэльский)
CP437 , CP720 , CP737 , CP850 , CP852 , CP855 , CP857 , CP858 , CP860 , CP861 , CP862 , CP863 , CP865 , CP866 , CP869 , CP872
Наборы символов MS-Windows :
- Windows-1250 для центральноевропейских языков, использующих латиницу (польский, чешский, словацкий, венгерский, словенский, сербский, хорватский, боснийский, румынский и албанский)
- Windows-1251 для кириллицы
- Windows-1252 для западных языков
- Windows-1253 для греческого
- Windows-1254 для турецкого
- Windows-1255 для иврита
- Windows-1256 для арабского языка
- Windows-1257 для балтийских языков
- Windows-1258 для вьетнамского языка
Mac OS Роман
КОИ8-Р , КОИ8-У , КОИ7
МИК
ISCII
TSCII
ВИСЦИ
JIS X 0208 — широко распространенный стандарт кодировки японских символов, имеющий несколько форм кодировки.
- Shift JIS ( кодовая страница Microsoft 932 является диалектом Shift_JIS)
- EUC-JP
- ISO-2022-JP
JIS X 0213 — это расширенная версия JIS X 0208.
Китайский Гобиао
- ГБ 2312
- GBK (кодовая страница Microsoft 936)
- ГБ 18030
Тайвань Big5 (более известный вариант — Microsoft Code page 950 )
- Гонконг HKSCS
корейский
- KS X 1001 — корейский стандарт кодировки двухбайтовых символов.
- EUC-КР
- ИСО-2022-КР
Unicode (и его подмножества, такие как 16-битная «базовая многоязычная плоскость»)
ANSEL или ISO/IEC 6937

Смотрите также

Процентное кодирование
Альтернативный код
Кодировки символов в HTML
Категория:Кодировка символов – статьи, связанные с кодировкой символов в целом.
Категория:Наборы символов – статьи, подробно описывающие конкретные кодировки символов.
Шестнадцатеричные представления
Mojibake – неправильное отображение набора символов
Mojikyō – система («набор глифов»), включающая более 100 000 изображений китайских иероглифов, современных и древних, популярных и малоизвестных
Уровень представления
TRON , часть проекта TRON, представляет собой систему кодирования, которая не использует унифицированное китайское письмо; вместо этого она использует «управляющие коды» для переключения между 16-битными «плоскостями» символов.
Универсальный набор символов
Анализ кодировки символов – используется в некоторых приложениях, когда метаданные кодировки символов недоступны.

Ссылки

^ "Определение кодировки символов". Словарь технических терминов . 24 сентября 2010 г.
^ ab "Обзор использования кодировок символов с разбивкой по рейтингу". W3Techs . Получено 29 апреля 2024 г. .
^ ab "Charset". Разработчики Android . Получено 2 января 2021 г. Примечание для Android: по умолчанию на платформе Android всегда используется UTF-8.
^ ab Galloway, Matt (9 октября 2012 г.). «Кодировка символов для разработчиков iOS. Или UTF-8, что теперь?». www.galloway.me.uk . Получено 2 января 2021 г. . на самом деле вы обычно просто предполагаете UTF-8, поскольку это, безусловно, самая распространенная кодировка.
↑ Том Хендерсон (17 апреля 2014 г.). «Таблицы кодов древних компьютерных символов — и почему они все еще актуальны». Smartbear . Получено 29 апреля 2014 г.
↑ Том Дженнингс (1 марта 2010 г.). «Аннотированная история некоторых кодов символов» . Получено 1 ноября 2018 г.
^ "IBM Electronic Data-Processing Machines Type 702 Preliminary Manual of Information" (PDF) . 1954. стр. 80. 22-6173-1. Архивировано (PDF) из оригинала 9 октября 2022 г.
^ Стрелхо, Кевин (15 апреля 1985 г.). «IBM Drives Hard Disks to New Standards». InfoWorld . Popular Computing Inc. стр. 29–33 . Получено 10 ноября 2020 г. .
^ abcd Шон Стил (15 марта 2005 г.). «В чем разница между кодировкой, кодовой страницей, набором символов и Unicode?». Microsoft Docs .
^ abcdefg "Глоссарий терминов Unicode". Консорциум Unicode.
^ ab "Глава 3: Соответствие". Стандарт Unicode версии 15.0 – Основная спецификация (PDF) . Консорциум Unicode. Сентябрь 2022 г. ISBN 978-1-936213-32-0.
^ abcde Уистлер, Кен; Фрейтаг, Асмус (11 ноября 2022 г.). "UTR#17: Модель кодировки символов Unicode". Unicode Consortium . Получено 12 августа 2023 г. .
^ "Информация о программисте видеотерминала VT510". Digital Equipment Corporation (DEC). 7.1. Наборы символов - Обзор. Архивировано из оригинала 26 января 2016 г. Получено 15 февраля 2017 г. В дополнение к традиционным наборам символов DEC и ISO , которые соответствуют структуре и правилам ISO 2022 , VT510 поддерживает ряд кодовых страниц IBM PC ( номера страниц в руководстве по стандартным наборам символов IBM) в режиме PCTerm для эмуляции консольного терминала стандартных ПК.
^ "Терминология (Учебники Java)". Oracle . Получено 25 марта 2018 г. .
^ "Метод Encoding.Convert". Библиотека классов Microsoft .NET Framework .
^ "Функция MultiByteToWideChar (stringapiset.h)". Microsoft Docs . 13 октября 2021 г.
^ "Функция WideCharToMultiByte (stringapiset.h)". Microsoft Docs . 9 августа 2022 г.

Дальнейшее чтение

Mackenzie, Charles E. (1980). Coded Character Sets, History and Development (PDF) . The Systems Programming Series (1-е изд.). Addison-Wesley Publishing Company, Inc. ISBN 978-0-201-14460-4. LCCN 77-90165. Архивировано (PDF) из оригинала 26 мая 2016 г. Получено 25 августа 2019 г.

Внешние ссылки

На Викискладе есть медиафайлы по теме «Кодировки» .

В Викиверситете есть обучающие ресурсы по кодировке символов

Наборы символов, зарегистрированные Управлением по присвоению адресов в Интернете (IANA)
Символы и кодировки, Юкка Корпела
Технический отчет Unicode № 17: Модель кодировки символов
Десятичные, шестнадцатеричные коды символов в HTML Unicode – преобразователь кодировок
Абсолютный минимум, который каждый разработчик программного обеспечения обязательно и обязательно должен знать о Unicode и наборах символов (никаких оправданий!) Джоэл Спольски (10 октября 2003 г.)