stringtranslate.com

JIS-кодирование

В вычислительной технике кодирование JIS относится к нескольким японским промышленным стандартам кодирования японского языка . [1] Строго говоря, этот термин означает либо:

На практике «кодировка JIS» обычно относится к символьным данным JIS X 0208, закодированным с помощью JIS X 0202. Например, IANA использует метку JIS_Encodingдля ссылки на JIS X 0202, а ISO-2022-JPметку — для ссылки на его профиль, определенный в RFC  1468. [2]

Другие механизмы кодирования символов JIS включают кодировку Shift JIS и EUC-JP . Shift JIS добавляет кандзи, полноширинную хирагану и полноширинную катакану из JIS X 0208 в JIS X 0201 способом обратной совместимости. [3] Shift JIS, пожалуй, наиболее широко используемая кодировка в Японии, поскольку совместимость с однобайтовым набором символов JIS X 0201 позволила производителям электронного оборудования (например, производителям кассовых аппаратов) предлагать обновление более старого и более дешевого оборудования. он не мог отображать кандзи на новом оборудовании, сохраняя при этом совместимость набора символов.

EUC-JP используется в системах UNIX , где кодировки JIS несовместимы со стандартами POSIX .

Более поздней альтернативой символам в кодировке JIS является Unicode ( символы в кодировке UCS ), особенно в механизме кодирования UTF-8 .

Сравнение кодировок

В следующей таблице сравниваются характеристики трех основных схем кодирования JIS X 0208.

  1. ^ т.е. не требует 8-битной чистой передачи.
  2. ^ т.е. последовательность, используемая для кодирования данного символа, всегда одинакова, независимо от того, какими были предыдущие символы. См. состояние (информатика) .
  3. ^ ab ISO-2022-JP — это кодировка с отслеживанием состояния : все кодировки кодируются с помощью 0x21–7E и переключаются между ними с помощью escape-символов ANSI. Следовательно, хотя в исходном состоянии это ASCII, целые последовательности символов, отличных от ASCII, могут быть закодированы байтами ASCII.
  4. ^ Катакана JIS X 0201 доступна в JIS X 0202 и ISO 2022, но не включена в базовый профиль ISO-2022-JP, хотя они являются общим расширением.
  5. ^ JIS X 0212 доступен в JIS X 0202 и ISO 2022 и включен в профили ISO-2022-JP-1 и ISO-2022-JP-2, но не в базовый профиль ISO-2022-JP.
  6. ^ Однобайтовые символы 0x21–7E в Shift_JIS правильно представляют собой ISO-646-JP , чтобы быть расширенным набором 8-битного JIS X 0201, но часто декодируются (не обязательно отображаются) как ASCII, который отличается только в двух местах.
  7. ^ Некоторые (не все) байты ASCII могут отображаться как вторые, но не первые байты двухбайтовых символов в Shift_JIS. Следовательно, в последовательности из двух или более байтов ASCII второй байт и далее обязательно являются символами ASCII (или ISO-646-JP).
  8. ^ ab EUC упакованного формата основан на механизмах ISO 2022 с заранее заданными обозначениями кодировок. Избегаются экранирование обозначения кодировки и блокирующие сдвиги, тогда как использование одиночных сдвигов может быть реализовано без сохранения состояния. Тем не менее, ограничения ISO 2022 соблюдаются.
  9. ^ Однобайтовые символы 0x21–7E в EUC-JP обычно считаются ASCII, но иногда рассматриваются как ISO-646-JP .
  10. ^ В отличие от Shift_JIS, EUC-JP не будет обрабатывать простой 8-битный ввод JIS X 0201 без предварительного преобразования из-за другого представления катаканы JIS X 0201 (с одиночными сдвигами).
  11. ^ JIS X 0212 в EUC-JP не всегда реализуется.
  12. ^ Помимо свойств самих кодировок, форматы Unicode имеют дополнительные преимущества, вытекающие из базового набора символов: они не ограничиваются символами в кодировке JIS, но могут представлять всю UCS (включая полный набор символов в кодировке JIS) и, следовательно, подходит для международного использования. На них также меньше влияют конфликтующие проприетарные расширения из-за их большего базового репертуара и выделенных областей частного использования.
  13. ^ Большинство побитовых сдвигов кадров текста в кодировке UTF-8 приводят к созданию недействительного UTF-8, но можно создавать последовательности символов, которые остаются действительными UTF-8 даже при сдвиге кадров на один или несколько битов.
  14. ^ Только Microsoft.
  15. ^ Хотя GB 18030 и GBK являются расширениями формы EUC-CN GB/T 2312, они не соответствуют ограничениям EUC или ISO 2022, в отличие от EUC-JP (или исходного EUC-CN).
  16. ^ Хотя теоретически UTF-32 самосинхронизируется только с 32-битными двойными словами, использование 32-битного значения для представления 21-битного значения означает, что на практике UTF-32 содержит непрерывный цикл не менее 11 нулевых битов в верхнем конце каждого символа, которые обычно можно использовать для выравнивания по границам символов, в зависимости от задействованных кодовых точек.

Смотрите также

Рекомендации

  1. ^ Хараламбус, Яннис (2007). Шрифты и кодировки . О'Рейли Медиа . стр. 42–44. ISBN 9780596102425.
  2. ^ «Наборы символов». ИАНА.
  3. ^ Лунде, Кен (2009). Обработка информации CJKV . О'Рейли Медиа . стр. 262–268. ISBN 9780596514471.