Сборник японских стандартов кодирования цифровых символов
В вычислительной технике кодирование JIS относится к нескольким японским промышленным стандартам кодирования японского языка . [1] Строго говоря, этот термин означает либо:
- Набор стандартных наборов кодированных символов для японского языка, в частности:
- JIS X 0201 , японская версия ISO 646 ( ASCII ), содержащая базовые 7-битные символы ASCII (с некоторыми изменениями) и 64 символа катаканы половинной ширины.
- JIS X 0208 , наиболее распространенный набор символов кандзи, содержащий 6879 символов, включая 6355 кандзи и 524 других символа (один плоскость 94 на 94).
- JIS X 0212 , дополнение к JIS X 0208, которое добавляет 5801 кандзи, всего 12 156 кандзи (вторая плоскость 94 на 94).
- JIS X 0213 , который расширяет JIS X 0208 (две плоскости).
- JIS X 0202 (также известный как ISO-2022-JP), набор механизмов кодирования для отправки символьных данных JIS по средствам передачи, которые поддерживают только 7-битные данные.
На практике «кодировка JIS» обычно относится к символьным данным JIS X 0208, закодированным с помощью JIS X 0202. Например, IANA использует метку JIS_Encoding
для ссылки на JIS X 0202, а ISO-2022-JP
метку — для ссылки на его профиль, определенный в RFC 1468. [2]
Другие механизмы кодирования символов JIS включают кодировку Shift JIS и EUC-JP . Shift JIS добавляет кандзи, полноширинную хирагану и полноширинную катакану из JIS X 0208 в JIS X 0201 способом обратной совместимости. [3] Shift JIS, пожалуй, наиболее широко используемая кодировка в Японии, поскольку совместимость с однобайтовым набором символов JIS X 0201 позволила производителям электронного оборудования (например, производителям кассовых аппаратов) предлагать обновление более старого и более дешевого оборудования. он не мог отображать кандзи на новом оборудовании, сохраняя при этом совместимость набора символов.
EUC-JP используется в системах UNIX , где кодировки JIS несовместимы со стандартами POSIX .
Более поздней альтернативой символам в кодировке JIS является Unicode ( символы в кодировке UCS ), особенно в механизме кодирования UTF-8 .
Сравнение кодировок
В следующей таблице сравниваются характеристики трех основных схем кодирования JIS X 0208.
- ^ т.е. не требует 8-битной чистой передачи.
- ^ т.е. последовательность, используемая для кодирования данного символа, всегда одинакова, независимо от того, какими были предыдущие символы. См. состояние (информатика) .
- ^ ab ISO-2022-JP — это кодировка с отслеживанием состояния : все кодировки кодируются с помощью 0x21–7E и переключаются между ними с помощью escape-символов ANSI. Следовательно, хотя в исходном состоянии это ASCII, целые последовательности символов, отличных от ASCII, могут быть закодированы байтами ASCII.
- ^ Катакана JIS X 0201 доступна в JIS X 0202 и ISO 2022, но не включена в базовый профиль ISO-2022-JP, хотя они являются общим расширением.
- ^ JIS X 0212 доступен в JIS X 0202 и ISO 2022 и включен в профили ISO-2022-JP-1 и ISO-2022-JP-2, но не в базовый профиль ISO-2022-JP.
- ^ Однобайтовые символы 0x21–7E в Shift_JIS правильно представляют собой ISO-646-JP , чтобы быть расширенным набором 8-битного JIS X 0201, но часто декодируются (не обязательно отображаются) как ASCII, который отличается только в двух местах.
- ^ Некоторые (не все) байты ASCII могут отображаться как вторые, но не первые байты двухбайтовых символов в Shift_JIS. Следовательно, в последовательности из двух или более байтов ASCII второй байт и далее обязательно являются символами ASCII (или ISO-646-JP).
- ^ ab EUC упакованного формата основан на механизмах ISO 2022 с заранее заданными обозначениями кодировок. Избегаются экранирование обозначения кодировки и блокирующие сдвиги, тогда как использование одиночных сдвигов может быть реализовано без сохранения состояния. Тем не менее, ограничения ISO 2022 соблюдаются.
- ^ Однобайтовые символы 0x21–7E в EUC-JP обычно считаются ASCII, но иногда рассматриваются как ISO-646-JP .
- ^ В отличие от Shift_JIS, EUC-JP не будет обрабатывать простой 8-битный ввод JIS X 0201 без предварительного преобразования из-за другого представления катаканы JIS X 0201 (с одиночными сдвигами).
- ^ JIS X 0212 в EUC-JP не всегда реализуется.
- ^ Помимо свойств самих кодировок, форматы Unicode имеют дополнительные преимущества, вытекающие из базового набора символов: они не ограничиваются символами в кодировке JIS, но могут представлять всю UCS (включая полный набор символов в кодировке JIS) и, следовательно, подходит для международного использования. На них также меньше влияют конфликтующие проприетарные расширения из-за их большего базового репертуара и выделенных областей частного использования.
- ^ Большинство побитовых сдвигов кадров текста в кодировке UTF-8 приводят к созданию недействительного UTF-8, но можно создавать последовательности символов, которые остаются действительными UTF-8 даже при сдвиге кадров на один или несколько битов.
- ^ Только Microsoft.
- ^ Хотя GB 18030 и GBK являются расширениями формы EUC-CN GB/T 2312, они не соответствуют ограничениям EUC или ISO 2022, в отличие от EUC-JP (или исходного EUC-CN).
- ^ Хотя теоретически UTF-32 самосинхронизируется только с 32-битными двойными словами, использование 32-битного значения для представления 21-битного значения означает, что на практике UTF-32 содержит непрерывный цикл не менее 11 нулевых битов в верхнем конце каждого символа, которые обычно можно использовать для выравнивания по границам символов, в зависимости от задействованных кодовых точек.
Смотрите также
Рекомендации